一个刚开始学习python的小菜菜,欢迎大家给予指正。
因为有的电影详情里没有影片的又名,所以没有爬取电影的又名。
基本思路:爬取top250列表页展示中电影的排行榜排名,电影详情链接,电影名称。然后通过电影链接进入到详情页,获取详情页的源码,再进行爬取,爬取后的数据保存在字典中,通过字典保存在mongo数据库中的。
from urllib.request import Request, urlopen
import re, pymongo
class DBmovieSpider(object):
"""
豆瓣爬虫类
"""
# 连接数据库
client = pymongo.MongoClient('localhost')
db = client['dbmovie']
def __init__(self):
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',
'Cookie':'()' # ()中填写自己登陆后的Cookie就好
}
def get_list_html(self, page):
"""
获取列表页源代码
:return: 返回网页源代码
"""
list_url = 'https://movie.