python scrapy框架爬虫豆瓣t250

最新推荐文章于 2024-04-28 09:45:00 发布

很好。，

最新推荐文章于 2024-04-28 09:45:00 发布

阅读量908

点赞数 15

文章标签： python scrapy 爬虫

本文链接：https://blog.csdn.net/qq_58423995/article/details/137023526

版权

本文介绍了如何使用Python的Scrapy框架进行豆瓣电影T250的爬虫开发，包括安装Scrapy、创建项目、配置settings文件、编写XPath表达式和处理items。作者强调了Scrapy框架对初学者的友好性和爬虫路径寻找的重要性。

摘要由CSDN通过智能技术生成

python scrapy框架爬虫豆瓣t250

安装scrapy pip包的管理工具
pip install scrapy（在cmd中下载我这里已经下载好了不再赘述）；

首先我们创建一个文件使用 cd 命令来将创建好的文件夹拖进命令行中；
在这里插入图片描述
输入命令行以后我们发现文件夹中有文件 scrapy startproject douban250Spider

切换到指定目录 cd douban250Spider/douban250Spider

我们查看豆瓣250的网址，使用命令 scrapy genspider douban250 "movie.douban.com/top250"

在这里插入图片描述

我们可以打开文件夹来查看是否成功出现douban250文件则证明创建成功；

使用python来打开文件

这个报错直接找设置给好环境

鼠标点到用alt+enter安装就好

打开items文件输入下面的代码

  movieImg = scrapy.Field()
    movieName = scrapy.Field()
    movieAuthor = scrapy.Field()
    movieYear = scrapy.Field()
    movieCountry = scrapy.Field()
    movieType = scrapy.Field()

差不多和java中的mysql增删改查差不多一样。
在这里插入图片描述
将settings.py的第17行给修改为下面的（重要）。

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0"

在这里插入图片描述
将下列代码粘贴到spiders下的quotes.py。

 movies  =response.xpath("//div[@class='item']")
        for movie in movies:
            item =Db250SpiderItem()
            txt=movie.xpath("div[@class='info']/div[@class='bd']/p/text()").extract()

            author = txt[0].split()[1]
            year = txt[1]
            country=txt[1]
            mType = txt[1]
            start_Index = year.find('/')
            end_index = year.find('/',start_Index+1)
            year = year[:start_Index].split()[0]
            country =country[start_Index+1:end_index].split()
            mType=mType[end_index+1:].split()
            item["movieImg"]=movie.xpath("div[@class='pic']/a/img/@src").extract_first()
            item["movieName"]=movie.xpath("div[@class='info']/div[@class='hd']/a/span[1]/text()").extract_first()
            item["movieAuthor"]=author
            item["movieYear"]=year
            item["movieCountry"]=country
            item["movieType"]=mType

            yield item

        next_page =response.xpath("//span[@class='next']/a/@href").extract_first()
        if next_page:
            yield scrapy.Request(url=response.urljoin(next_page),callback=self.parse)