使用scrapy爬取豆瓣电影Top250

根据官方文档做的简单练习,唯一遇到的问题就是爬取返回403.解决方法是在settings.py文件中增加以下参数:

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

下面是spider的内容:

# -*- coding: utf-8 -*-
import scrapy


class MoviesSpider(scrapy.Spider):
    name = 'movies'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        grid_view=response.css('ol.grid_view')
        for li_item in grid_view.css('li'):
            yield {
                    'rank':li_item.css('div.item div.pic em::text').extract_first(),
                    'url':li_item.css('div.item div.pic a::attr(href)').extract_first(),
                    'title_zh':li_item.css('div.hd a span:first-child::text').extract_first(),
                    'title_en':li_item.css('div.hd a span:nth-child(2)::text').extract_first(),
                    'title_tw':li_item.css('div.hd a span:last-child::text').extract_first(),
                    'editor':li_item.css('div.bd p:first-child::text').extract_first(),
                    'star':li_item.css('div.bd div.star span.rating_num::text').extract_first(),
                    'votes':li_item.css('div.bd div.star span:last-child::text').re(r'(\d+)')[0],
                    'desc':li_item.css('span.inq::text').extract_first()
                    }
            next_page=response.css('span.next a::attr(href)').extract_first()
            if next_page is not None:
                yield response.follow(next_page,self.parse)


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我了解了您的问题。要使用Scrapy豆瓣电影Top250,首先需要安装Scrapy。您可以使用以下命令在命令行中安装Scrapy,前提是您已经安装了Python: ``` pip install scrapy ``` 然后,您需要创建一个Scrapy项目。在命令行中使用以下命令创建项目: ``` scrapy startproject douban_movie ``` 然后,您需要创建一个Spider来定义如何数据。在douban_movie目录中,创建一个名为“spiders”的目录,并在该目录中创建一个名为“douban_spider.py”的Python文件。然后,在douban_spider.py文件中添加以下代码来定义Spider: ``` import scrapy class DoubanSpider(scrapy.Spider): name = "douban" allowed_domains = ["movie.douban.com"] start_urls = ( 'https://movie.douban.com/top250', ) def parse(self, response): for movie in response.xpath('//div[@class="info"]'): yield { 'title': movie.xpath('div[@class="hd"]/a/span/text()').extract_first(), 'rating': movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract_first(), 'quote': movie.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract_first(), } next_page = response.xpath('//span[@class="next"]/a/@href') if next_page: url = response.urljoin(next_page[0].extract()) yield scrapy.Request(url, self.parse) ``` 此Spider将使用XPath语法解析豆瓣Top250页面的HTML,并从每个电影的页面提电影的标题、评级和引用,并在页面中索引下一页的链接以实现全网翻页。现在,通过运行以下命令,将虫部署到Scrapy项目中: ``` scrapy crawl douban -o movies.csv ``` 这将开始Top250,并将结果保存在名为“movies.csv”的CSV文件中。当然,您可以根据需要更改输出格式。希望这可以帮助您开始使用Scrapy豆瓣电影Top250!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值