在settings文件中加入下面两行配置就可以开启了
FEED_URI = 'file:///D:/vagrant/python/scrapy/123.jsonl'
FEED_FORMAT = 'jsonlines'
注意FEED_URI的配置(我的是在windows环境),如果在 (只有)存储在本地文件系统时,您可以指定一个绝对路径 /tmp/export.csv 并忽略协议(scheme)。不过这仅仅只能在Unix系统中工作.
通过上面的配置就可以简单的开启并使用了不过会遇到中文的编码问题这个可以在调用 scrapy.contrib.exporter.JsonItemExporter 的时候额外指定 ensure_ascii=False 就可以啦 答案地址在下面 https://segmentfault.com/q/1010000000367894
关于这部分全部的东西给大家放在下面:
导出文件
新版本0.10。
实现爬虫时最常需要的特征之一是能够正确地存储所过滤的数据,并且经常意味着使用被过滤的数据(通常称为“export feed”)生成要由其他系统消耗的“导出文件” 。
Scrapy使用Feed导出功能即时提供此功能,这允许您使用多个序列化格式和存储后端来生成包含已抓取项目的Feed。
序列化格式
为了序列化抓取的数据,Feed导出使用项导出器。这些格式是开箱即用的:
- JSON
- JSON lines
- CS