python爬取的豆瓣top250的一些信息

最新推荐文章于 2024-04-04 09:58:41 发布

风中追风风

最新推荐文章于 2024-04-04 09:58:41 发布

阅读量906

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/wang1472jian1110/article/details/50341017

版权

python 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

核心spider：（入门简单参考，进阶的以后会更新，不要照抄，xpath的脚本自己去核对一下，不一定还能用）

# -*- coding: utf-8 -*-
from scrapy.selector import Selector
from scrapy.spiders import CrawlSpider,Rule
from scrapy.linkextractors.sgml import SgmlLinkExtractor
from doubanmovie.items import DoubanmoiveItem

class MoiveSpider(CrawlSpider):
    name="doubanmovie"
    allowed_domains=["movie.douban.com"]
    start_urls=["http://movie.douban.com/top250"]
    rules=[
        Rule(SgmlLinkExtractor(allow=(r'http://movie.douban.com/top250\?start=\d+.*'))),
        Rule(SgmlLinkExtractor(allow=(r'http://movie.douban.com/subject/\d+')),callback="parse_item"),
    ]

    def parse_item(self,response):
        sel=Selector(response)
        item=DoubanmoiveItem()
        item['name']=sel.xpath('//*[@id="content"]/h1/span[1]/text()').extract()
        item['year']=sel.xpath('//*[@id="content"]/h1/span[2]/text()').re(r'\((\d+)\)')
        return item

风中追风风

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬取的豆瓣top250的一些信息

核心spider：（入门简单参考，进阶的以后会更新，不要照抄，xpath的脚本自己去核对一下，不一定还能用）# -*- coding: utf-8 -*-from scrapy.selector import Selectorfrom scrapy.spiders import CrawlSpider,Rulefrom scrapy.linkextractors.sgml impo
复制链接

扫一扫

专栏目录