上节说到Pipeline会拦截item,根据设置的优先级,item会依次经过这些Pipeline,所以可以通过Pipeline来保存文件到json、数据库等等。
下面是自定义json
#存储item到json文件
classJsonWithEncodingPipeline(object):def __init__(self):#使用codecs模块来打开文件,可以帮我们解决很多编码问题,下面先初始化打开一个json文件
importcodecs
self.file= codecs.open('article.json','w',encoding='utf-8')#接着创建process_item方法执行item的具体的动作
defprocess_item(self, item, spider):importjson#注意ensure_ascii入参设置成False,否则在存储非英文的字符会报错
lines = json.dumps(dict(item),ensure_ascii=False) + "\n"self.file.write(lines)#注意最后需要返回item,因为可能后面的Pipeline会调用它
returnitem#最后关闭文件
defspider_close(self,spider):
self.file.close()
scrapy内置了json方法:
from scrapy.exporters import JsonItemExporter
除了JsonItemExporter,scrapy提供了多种类型的exporter
classJsonExporterPipeline(object):#调用scrapy提供的json export导出json文件
def __init__(self):#打开一个json文件
self.file = open('articleexport.json','wb')#创建一个exporter实例,入参分别是下面三个,类似前面的自定义导出json
sel