爬虫 scrapy 翻页和递归之豆瓣top250案例

最新推荐文章于 2023-10-12 11:09:14 发布

squabLi

最新推荐文章于 2023-10-12 11:09:14 发布

阅读量1.8k

点赞数 2

分类专栏：爬虫 scrapy 翻页和递归文章标签： python 爬虫 scrapy 翻页和递归豆瓣top250

本文链接：https://blog.csdn.net/IT_arookie/article/details/83005298

版权

该博客详细介绍了如何利用Python的Scrapy框架爬取豆瓣Top250电影的排名、名称、评分、导演、评价人数、上映时间、简评、剧情简介等数据，并下载每部电影的图片，以电影名和排名作为图片文件名，保存到指定文件夹。文章涵盖爬虫文件和管道文件的实现，同时强调了在访问豆瓣时添加浏览器头部的重要性。

摘要由CSDN通过智能技术生成

用scrapy的翻页和递归获取豆瓣top250，

任务：获取排名，电影名称，评分，导演，评价人数，上映时间，简评以及剧情简介等字段，获取每个电影的图片，名字以电影名和排名来命名，保存到新文件夹里

这里只介绍爬虫文件和管道文件，
访问豆瓣一般要加浏览器头部的
scrapy各个模块的作用请查看：
https://blog.csdn.net/IT_arookie/article/details/82874541

爬虫文件：

from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from ..items import Douban250Item
from scrapy.http import Request
from copy import deepcopy
import re
class douban(CrawlSpider):  #继承
    name="douban250"        #名字为爬虫文件名
    url="https://movie.douban.com/top250"
    start_urls=[url]        #要访问的网址，start_urls固定这样写
    def parse(self,response):      # 固定写法
        selector=Selector(response)   # 固定写法
        item=Douban250Item()      # 固定写法；items.py中的类名
        parent=selector.xpath("//div[@id='content']").xpath('.//li')
        for each in parent:
            #排名
            rank= each.xpath('.//div[@class="pic"]/em/text()').extract()[0]
            #电影名
            moviename=each.xpath(".//div[@class='info']").xpath(".//span[@class='title'][1]/text()"