用scrapy的翻页和递归 获取豆瓣top250,
任务:获取排名,电影名称,评分,导演,评价人数,上映时间,简评以及剧情简介等字段,获取每个电影的图片,名字以电影名和排名来命名,保存到新文件夹里
这里只介绍爬虫文件和管道文件,
访问豆瓣一般要加浏览器头部的
scrapy各个模块的作用请查看:
https://blog.csdn.net/IT_arookie/article/details/82874541
爬虫文件:
from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from ..items import Douban250Item
from scrapy.http import Request
from copy import deepcopy
import re
class douban(CrawlSpider): #继承
name="douban250" #名字为爬虫文件名
url="https://movie.douban.com/top250"
start_urls=[url] #要访问的网址,start_urls固定这样写
def parse(self,response): # 固定写法
selector=Selector(response) # 固定写法
item=Douban250Item() # 固定写法;items.py中的类名
parent=selector.xpath("//div[@id='content']").xpath('.//li')
for each in parent:
#排名
rank= each.xpath('.//div[@class="pic"]/em/text()').extract()[0]
#电影名
moviename=each.xpath(".//div[@class='info']").xpath(".//span[@class='title'][1]/text()"