使用scrapy爬取豆瓣电影Top250

最新推荐文章于 2024-04-28 09:45:00 发布

侠之大者为国为民

最新推荐文章于 2024-04-28 09:45:00 发布

阅读量915

点赞数 1

分类专栏： scrapy 文章标签： scrapy

本文链接：https://blog.csdn.net/sofeien/article/details/80490033

版权

scrapy 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

根据官方文档做的简单练习，唯一遇到的问题就是爬取返回403.解决方法是在settings.py文件中增加以下参数：

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

下面是spider的内容：

# -*- coding: utf-8 -*-
import scrapy


class MoviesSpider(scrapy.Spider):
    name = 'movies'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        grid_view=response.css('ol.grid_view')
        for li_item in grid_view.css('li'):
            yield {
                    'rank':li_item.css('div.item div.pic em::text').extract_first(),
                    'url':li_item.css('div.item div.pic a::attr(href)').extract_first(),
                    'title_zh':li_item.css('div.hd a span:first-child::text').extract_first(),
                    'title_en':li_item.css('div.hd a span:nth-child(2)::text').extract_first(),
                    'title_tw':li_item.css('div.hd a span:last-child::text').extract_first(),
                    'editor':li_item.css('div.bd p:first-child::text').extract_first(),
                    'star':li_item.css('div.bd div.star span.rating_num::text').extract_first(),
                    'votes':li_item.css('div.bd div.star span:last-child::text').re(r'(\d+)')[0],
                    'desc':li_item.css('span.inq::text').extract_first()
                    }
            next_page=response.css('span.next a::attr(href)').extract_first()
            if next_page is not None:
                yield response.follow(next_page,self.parse)

侠之大者为国为民

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
使用scrapy爬取豆瓣电影Top250

根据官方文档做的简单练习，唯一遇到的问题就是爬取返回403.解决方法是在settings.py文件中增加以下参数：USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'下面是spider的内容：# -*- c...
复制链接

扫一扫

专栏目录