python 利用scrapy爬取豆瓣TOP250部电影信息分别保存为csv、json、存入mysql、下载海报图片

最新推荐文章于 2024-08-01 14:57:53 发布

行者刘6

最新推荐文章于 2024-08-01 14:57:53 发布

阅读量2.9k

点赞数 3

本文链接：https://blog.csdn.net/qq_38282706/article/details/80058548

版权

该博客详细介绍了如何使用Python的Scrapy框架，结合fake_useragent中间件设置User-Agent，实现对豆瓣Top250电影信息的爬取。内容包括创建CSV、JSON文件，将数据存储到MySQL数据库，以及下载电影海报图片。在Pipelines.py中定义了四个处理管道，分别处理不同格式的数据存储，并在settings.py中配置了请求间隔、重试策略等参数。开始爬虫前，begin.py会创建MySQL表并启动爬虫，整个过程中需要注意文件写入的细节和图片路径的修改。

摘要由CSDN通过智能技术生成

目的网址https://movie.douban.com/top250

最后保存的内容：csv文件、json文件、存入mysql、下载海报图片

要点：1.middlewares.py 设定UA

2.Pipelines.py 保存为json文件注意json.dumps()的用法

保存为csv文件，注意csv文件的写法，newline等等，还有os.path.getsize得出文件的大小

插入数据到mysql库，利用lazystore，还得先在begin创建table

下载图片，修改图片的路径名字！！PS：这个只能放在最后执行，因为改名后item会变乱！

3.settings.py 设定重试、间隔时间、带cookies登录、设定UA、设定Pipe的执行顺序、图片下载设定

4.begin.py 利用lazystore，创建table，，启动spider，直接保存csv文件的方法

主体spider.py（其实内容很简单！）

import scrapy
from doubanmovie.items import DoubanmovieItem
from scrapy.selector import Selector

class XianxiSpider(scrapy.Spider):
    name = "doubanmovie"         #begin 好像用的就是这个名字
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']
    # 我们爬取35页的全部热门段子

    def parse(self, response):
        sel=Selector(response)
        movies = response.xpath('//div[@class="item"]')
        item = DoubanmovieItem()
        for movie in movies:
            title=movie.xpath('.//div[@class="hd"]/a').xpath('string(.)').extract()
            name="".join(title).strip()
            item['name']=name.replace('\r\n', '').replace(' ', '').replace('\n', '')
            infos = movie.xpath('.//div[@class="bd"]/p').xpath('string(.)').extract()
            info="".join(infos).strip()
            item['info'] = info.replace('\r\n', '').replace(' ', '').replace('\n', '')
            item['rating'] = movie.xpath('.//span[@class="rating_num"]/text()').extract()[0].strip()
            item['num'] = movie.xpath('.//div[@class="star"]/span[last()]/text()').extract()[0].strip()[:-3]
            quotes = movie.xpath('.//span[@class="inq"]/text()').extract()
            quote