前言
在Scrapy爬虫(一)——你的第一个Scrapy爬虫中我们写了一个最简易的爬虫,可是这个爬虫并没有实现保存页面内容的功能。
本篇主要会通过pipLine实现页面内容保存以及代理访问的功能。
Item
在每次调用parse()函数都通过yield语句返回一个list,而实际上我们可以自定义一个Item类通过这个函数返回一个Item List。
首先,我们要在新建一个item.py并且自定义一个Item:
class CollectItem(scrapy.Item):
news_id=scrapy.Field()
language=scrapy.Field()