scrapy--使用items.py 文件处理数据

最新推荐文章于 2024-05-11 11:06:14 发布

江玉郎

最新推荐文章于 2024-05-11 11:06:14 发布

阅读量6k

点赞数

文章标签： scrapy items

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39610888/article/details/81636515

版权

在前面的两节介绍了使用scrapy 爬取图片与保存到文件的方式，可以看到，我们所有的提取操作都是在主文件中进行的，虽然也能取出来数据，但是在对数据进行一些修改操作时，就比较麻烦了，而且代码臃肿，重复量高。
所以今天介绍如何在items.py 文件分离数据、操作数据。
这里以伯乐在线的全部文章为例，目的是提取每篇文章的标题、时间、点赞数、评论数、喜欢数，并且存到数据库中
1 我们先创建一个scrapy 项目，scrapy startproject bole ,
scrapy genspider job blog.jobbole.com ..
这里不一一介绍，
这里写图片描述
按照我们前两篇的方式，提取方式应该是像下面这样写：

但是这样写在对提取的数据进行下一步处理时就显得麻烦，所以今天这样写，

2 首先在items.py文件里引入一个ItemLoader类， ItemLoader 是分离数据的另一种方式，可以将数据的分离和提取分为两部分，默认使用xpath,css数据提取方式，让代码更加整洁，更加清晰。可以对一个数据使用多个处理函数，对代码的重用有很好的实现。
自

最低0.47元/天解锁文章

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
scrapy--使用items.py 文件处理数据

在前面的两节介绍了使用scrapy 爬取图片与保存到文件的方式，可以看到，我们所有的提取操作都是在主文件中进行的，虽然也能取出来数据，但是在对数据进行一些修改操作时，就比较麻烦了，而且代码臃肿，重复量高。所以今天介绍如何在items.py 文件分离数据、操作数据。这里以伯乐在线的全部文章为例，目的是提取每篇文章的标题、时间、点赞数、评论数、喜欢数，并且存到数据库中 1 我们先创建一个sc...
复制链接

扫一扫

江玉郎 CSDN认证博客专家 CSDN认证企业博客

码龄7年

84: 原创

23万+: 周排名

215万+: 总排名

17万+: 访问

: 等级

2404: 积分

87: 粉丝

105: 获赞

38: 评论

484: 收藏

私信

关注

热门文章

分类专栏

Django 21篇
数据结构 6篇
MYSQL 1篇
C++ 6篇

最新评论

Django restframework实现用户认证（登录之后才可以访问的视图编写）
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7956966, 请多输出高质量博客, 帮助更多的人
使用scrapy爬取图片
且小强: 程序运行正常但是没反应的可以看一下：有可能在隐蔽的地方显示：Disabled mediaPileline: ImagesPipeline requires installing Pillow 4.0.0 or later ，大概意思就是要安装Pillow 4.0.0之后的版本，于是我安装了pillow，就可以正常启用管道类了， pip install pillow -i https://pypi.douban.com/simple
使用scrapy爬取图片
FYJ506: 为啥我的两种方法都是不报错，但是也不保存，不会创建那个装图片的目录，就运行结束了，这个是哪里出了问题啊
使用scrapy爬取图片
FYJ506: 存储位置写在setting里了
Django中使用验证码--captcha
icecoffee_: 请问，我的验证码图片加载不出来是什么原因呢（后台在请求图片地址时返回200，也没有报错）？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。