最近在学习关于爬虫方面的知识,因为刚开始接触,还是萌新,所以有什么错误的地方,欢迎大家指出
from multiprocessing import Pool
from urllib.request import Request, urlopen
import re, pymongo
index = 0
class DouBanSpider(object):
client = pymongo.MongoClient('localhost')
db = client['dbmovie'] #进程池无法序列化pymongo对象,因为pymongo数据库中含有线程锁。
def __init__(self):
self.headers = {
'User-Agent': '这里添加自己的浏览器代理'
,'Cookie': '豆瓣需要登录后才能访问爬取信息所以要加上自己的Cookie'
}
self.tool = DataTool()
def get_list_html(self, page_num):
page_num = (page_num - 1) * 25
list_url = 'https://movie.douban.com/top250?start={}'.format(page_num)
request = Request(list_url, headers=self.headers)
try:
response &