此次演示的ITcast小爬虫没有写管道文件,而是将所有的item存到一个列表中,运行爬虫时通过-o指定输出文件格式来保存信息。
原理:通过下面列出的itcast.py 文件的 return items 可知,爬虫文件返回给引擎的信息并不是字段item,而是自定义的列表items,此时引擎会判断出并非item,则会按照我们的命令来存储信息。
运行命令:scrapy crawl itcast -o teachers.json
这里teachers.json 将保存爬取下来的信息,也可以输出成其他格式的文件。
scrapy保存信息最简单的方法主要有四种,-o指定输出格式的文件,命令如下:
#json格式,默认为Unicode编码
scrapy crawl itcast -o teachers.json
#json lines格式,默认为Unicode编码
scrapy crawl itcast -o teachers.json1
#csv逗号表达式,可用Excel打开