一、介绍
个人最近学习scrapy的一个练手项目,因为是爬取静态网页比较简单,不过还是基本熟悉了用scrapy进行爬虫的流程。爬取的是豆瓣top250的电影名称,导演,评分等。
二、代码解析
首先创建初始爬虫项目, cd到想保存的目录,然后在命令行中输入
$ scrapy startproject top250
然后我们开始更改item.py文件,代码如下
import scrapy class Top250Item(scrapy.Item): movie_name = scrapy.Field() director = scrapy.Field() actor = scrapy.Field() type = scrapy.Field() score = scrapy.Field()
pipeline不用修改