scrapy爬取豆瓣电影

本文介绍了使用Python的Scrapy框架爬取豆瓣电影Top250的过程,包括定义爬取元素的model,编写爬虫实现代码,解决因User-Agent导致的爬虫被屏蔽问题,以及如何在pipelines中处理爬取到的数据。
摘要由CSDN通过智能技术生成

这两天学习了下scrapy,并试着用它爬取了大家都扎堆爬的豆瓣排名前250的电影,中间提升了自己对scrapy的认识,并踩了一些坑总结一下。(以下内容基于Python3.5;scrapy1.3.3下)

只想看代码,here that is

1.定义所需爬取元素的model

items.py

import scrapy

class DoubanscrapyItem(scrapy.Item):
    url = scrapy.Field()
    rank = scrapy.Field()
    movie_name = scrapy.Field()
    comment = scrapy.Field()
    price = scrapy.Field()

爬取元素并不是必须声明一个model,也可以直接在爬虫代码中,将爬取的元素直接通过这种方式来展现

yield {
    url: .....,
    movie_name: .....
}
省略部分是爬取对应元素的规则

根据官方文档介绍,Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便,Ite

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值