首先需要对目标网站进行分析,具体的分析这里不详细介绍。目标网站;豆瓣某个电影评论页面 https://movie.douban.com/subject/1292052/reviews,这个电影是肖申克的救赎。网页没有使用什么特殊的加载方式,所有的评论数据都在当前的源码中。翻页:
https://movie.douban.com/subject/1292052/reviews?start=0
https://movie.douban.com/subject/1292052/reviews?start=20
https://movie.douban.com/subject/1292052/reviews?start=40
以此类推,修改start的值就可以实现翻页,数字为电影的ID,如果想要抓取不同的电影评论,只需要替换掉电影ID即可。
1.settings.py配置文件
import os
BOT_NAME = 'douban'
SPIDER_MODULES = ['douban.spiders']
NEWSPIDER_MODULE = 'douban.spiders'
ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0'
}
# 注册自定义中间件SeleniumMiddleware
DOWNLOADER_MIDDLEWARES = {
'douban.middlewares.SeleniumMiddleware': 543,
}
LOG_LEVEL='ERROR'
# 注册管道
ITEM_PIPELINES = {
'douban.pipelines.Doub