Scrapy设置之Feeds

最新推荐文章于 2022-02-15 21:03:27 发布

bluespacezero

最新推荐文章于 2022-02-15 21:03:27 发布

阅读量3.8k

点赞数 2

分类专栏： scrapy 网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/q_an1314/article/details/51111958

版权

scrapy 同时被 2 个专栏收录

40 篇文章 10 订阅

订阅专栏

37 篇文章 0 订阅

订阅专栏

Scrapy提供了Feed Exports来保存抓取到的Item，Feed Exports有几种序列化格式和几种存储方式。

存储方式：本地文件系统、FTP、S3、标准输出。由FEED_URI选项指定。FEED_URI里面可以有命令参数，例如，

ftp://user:password@ftp.example.com/scraping/feeds/%(name)s/%(time)s.json

其中，time由输出时的时间戳代替，而name则是爬虫的name属性。也可以有其它的命令参数，比如%(site_id)s，此时爬虫需要有site_id属性。

序列化格式：JSON，JSON lines，CSV，XML，Pickle，Marshal。由FEED_FORMAT选项指定，若没有指定，则根据FEED_URI的后辍来猜测。

FEED_STORE_EMPTY可以用来控制是否输出空的feed，比如没有Item的feed。

可以用FEED_EXPORT_FIELDS来控制输出的字段以及其顺序，如FEED_EXPORT_FIELDS = ["foo", "bar", "baz"]。这点对于那些有固定的header栏的csv文件尤其有用。

最后，FEED_URI_PARAMS可以用来定义一个对FEED_URI里面的参数进行后处理的函数。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy设置之Feeds

Scrapy提供了Feed Exports来保存抓取到的Item，Feed Exports有几种序列化格式和几种存储方式。存储方式：本地文件系统、FTP、S3、标准输出。由FEED_URI选项指定。FEED_URI里面可以有命令参数，例如，ftp://user:password@ftp.example.com/scraping/feeds/%(name)s/%(time)s.json其中，time由
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。