爬虫入门之后一定要掌握的就是scrapy框架。这个框架不仅本身就是基于twisted进行异步爬取,而且还有很强的拓展性、灵活性,后期进行商业性质的爬取可以部署分布式爬取。
scrapy框架核心部分不过四个
- spider
- settings
- pipeline
- items
当然,在熟练使用后middleware也是要掌握的。
今天用最简单的代码爬取一下豆瓣电影
命令行startproject 以及genspider这里不做赘述,直接进入爬虫project文件中写代码。
首先在items.py中声明爬取的item,也就是我们爬取的目标内容。
本次我们爬取的内容为
- 电影名(title)
- 分数
- 时长
- 导演
- 演员
import scrapy
class DbreyingItem(scrapy.Item):
# define the field