在scrapy中parse函数里面xpath的内容打印不出来_scrapy 爬虫爬取的数据json模式存储...

3fcd6622aa95f0b8d374df6f4a65c967.png

007342993ddd2b33143c2e95c0b3abe2.png

网络Scrapy 爬虫对爬取的数据进行存储,我们之前有对极品笑话大全进行成功爬取下面就是我们爬取的数据展示,一个简单的爬取

d665ff9fa3e3ded71d87188d6164ffee.png

数据有了,我们就要进行存储,我们一般小白都会在spider.py文件中进行存储,用with open打开文件这个方法,学习scrapy爬虫这样是不推荐的,大家还记得我们爬虫框架每一个.py文件它都有其功能,我们存储就要用到pipelines.py文件。

69d3454a02cd09532aa9b75060f167e0.png

1.我们打开jp_spider爬虫文件,我建立一个字典,contents=xiaohua_info.xpath(".//text()").getall()
‎contents=''.join(contents)#contents就变成了字符串
‎content={"contents":contents}
‎yield content

这里用yield返回,就是说明parse 函数变成了一个生成器,以后我们想要数据遍历它就可以了,yield把数据返回给scrapy爬虫引擎,然后引擎把它给pipelines。

2.打开pipelines.py文件,pipelines里我们要调用三个函数,

a35de7deb2c5323518b664e96c27b270.png

用json 来存储文件,导入json,用一个构造函数来打开文件,process函数写入,然后关闭,存储过程就写完了,

3,要运行pipelines,我们要打开settings文件,找到ITEM_PIPELINES

86a45df54d677515693aeb76f9c713f6.png

取消注释,里面已经生成了一个爬虫项目pipelines,后面有一个valur值,这个值是一个优先级的意思,我们有时候有很多个pipelines,所就后面的数越小,越先执行这个pipelines,我们这里只有一个写多少都无所谓。

4,运行爬虫,大家看图,有没有发现什么?

cbe1662c0f1ee9a9bbbeb46db8edc660.png

它生成了一个content.json文件,就是我们在pipelines里面建立的,这样就完成了。

学习不是一蹴而就,大家慢慢来。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值