关于scrapy的xpath框架输出爬取内容为json文件的方法(特别是settings中pipeline的配置)
写这篇文章的原因是网上的大部分回答着重在pipeline.py的配置但是如何在settings.py中开启却说的很模糊。
在设置json输出之前要保证爬取逻辑是没有问题的并且能在命令行输出。然后就进入正题。
进入你新建的项目的根目录,比如在命令行用
``
scrapy startproject ex_spider
``
建立的项目。那么就进入ex_spider目录下的pipeline.py文件中添加如下代码
import codecs,json
class TutorialPipeline(object):#类名可以改但是要记着,以后会用
def __init__(self):
#定义将要输出的json文件的名字和输出方式以及编码
self.file = codecs.open(‘spiders.json', 'w', encoding="utf-8")
def process_item(self, item, spider):
lines = json.dumps(dict(item), ensure_ascii=False) + "\n"
self.file.write(lines)
return item
def spider_closed(self, spider):
self.file.close()
添加完成后进入同样目录下的settings.py文件添加
ITEM_PIPELINES ={ex_