爬虫 scrapy 翻页和递归之豆瓣top250案例

该博客详细介绍了如何利用Python的Scrapy框架爬取豆瓣Top250电影的排名、名称、评分、导演、评价人数、上映时间、简评、剧情简介等数据,并下载每部电影的图片,以电影名和排名作为图片文件名,保存到指定文件夹。文章涵盖爬虫文件和管道文件的实现,同时强调了在访问豆瓣时添加浏览器头部的重要性。
摘要由CSDN通过智能技术生成

用scrapy的翻页和递归 获取豆瓣top250,

任务:获取排名,电影名称,评分,导演,评价人数,上映时间,简评以及剧情简介等字段,获取每个电影的图片,名字以电影名和排名来命名,保存到新文件夹里

这里只介绍爬虫文件和管道文件,
访问豆瓣一般要加浏览器头部的
scrapy各个模块的作用请查看:
https://blog.csdn.net/IT_arookie/article/details/82874541

爬虫文件:
from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from ..items import Douban250Item
from scrapy.http import Request
from copy import deepcopy
import re
class douban(CrawlSpider):  #继承
    name="douban250"        #名字为爬虫文件名
    url="https://movie.douban.com/top250"
    start_urls=[url]        #要访问的网址,start_urls固定这样写
    def parse(self,response):      # 固定写法
        selector=Selector(response)   # 固定写法
        item=Douban250Item()      # 固定写法;items.py中的类名
        parent=selector.xpath("//div[@id='content']").xpath('.//li')
        for each in parent:
            #排名
            rank= each.xpath('.//div[@class="pic"]/em/text()').extract()[0]
            #电影名
            moviename=each.xpath(".//div[@class='info']").xpath(".//span[@class='title'][1]/text()"
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值