scrapy数据建模与请求

上官轩言

于 2024-05-30 20:21:41 发布

阅读量402

点赞数 9

分类专栏： scrapy爬虫文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stitches_fly/article/details/139333637

版权

scrapy爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

scrapy数据建模与请求

数据建模

❤在爬虫项目中，item.py 文件通常用来定义数据模型（Item），用于存储从网页抓取到的信息。这种数据模型通常使用 Scrapy 框架提供的 Item 类或类似的类（如 PyQuery、BeautifulSoup 等库中的类似概念）来构建。

1.1为什么建模

1.定义item即提前规划好哪些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查

2.配合注释一起可以清晰的知道要抓取哪些字段,没有定义的字段不能抓取,在目标字段少的时候可以使用字典代替

3.使用scrapy的一些特定组件需要项做支持，如scrapy的ImagesPipeline管道类

1.2如何建模

找到item.py文件
定义Item字段及其数据类型

（此处使用的是最基础的Field方法–基本字段定义（默认都是字符串类型））

[!IMPORTANT]

每个字段都是通过调用 scrapy.Field() 创建的。虽然这里没有显式指定字段的数据类型，但在实际使用中，Scrapy 会根据赋值数据自动推断字段类型，通常默认为字符串类型。如果您需要指定特定的数据类型或额外的参数，可以传递给 Field() 方法

1.3如何使用模板类

❤模板类定义以后需要在爬虫中导入并且实例化，之后的使用方法和使用字典相同

回到爬虫文件

在这里插入图片描述

2.导入item文件

from myspider.items import MyspiderItem

3.实例化item文件（在原先用字典的地方进行实例化）

❤应替换的地方
在这里插入图片描述

❤实例化的替换地方

在这里插入图片描述

[!NOTE]

在item.py文件中，由于自己建的类不属于字典，所以在管道中直接把item当作字典进行转换时scrapy在运行的过程中会报错，必须将item对象强转成字典

在这里插入图片描述

tips：

from myspider.items import Myspideritem这一行代码中注意item的正确导入路径，忽略pycharm标记的错误
r.items import Myspideritem这一行代码中注意item的正确导入路径，忽略pycharm标记的错误
python中的导入路径要诀：从哪里开始运行，就从哪里开始导入

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

上官轩言 CSDN认证博客专家 CSDN认证企业博客

码龄1年

8: 原创

152万+: 周排名

9万+: 总排名

9843: 访问

: 等级

292: 积分

136: 粉丝

209: 获赞

4: 评论

111: 收藏

私信

关注

热门文章

分类专栏

scrapy爬虫 1篇

最新评论

有关爬虫pipelines管道文件（一）
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
关于pycharm早期版本解决turtle库补全
CSDN-Ada助手: 恭喜你写了第四篇博客！标题看起来很有意思，希望你能够继续分享有关pycharm和turtle库的解决方案。或许下一步可以尝试分享一些关于其他Python库的使用技巧或者编程经验，相信读者会很感兴趣的。期待你的下一篇作品！愿你在创作的道路上越走越远。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Python关于eval函数+实战案例
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python关于eval函数+实战案例
CSDN-Ada助手: 恭喜你开始了博客创作之旅！标题很吸引人，eval函数在Python中确实有很多实用的应用案例。希望你能继续分享更多关于Python的知识和实战经验，可以尝试探讨一些更深入的主题或者结合其他技术进行案例分析，这样可以让读者有更多收获。期待你的下一篇博客！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Scrapy爬虫基础讲解及案例
CSDN-Ada助手: 非常棒的博客！对于Scrapy爬虫的基础讲解以及案例分析，你做得非常详细和清晰。希望你能继续分享更多关于爬虫的知识和经验。另外，在扩展知识方面，你可以深入了解Scrapy中的管道（pipelines）功能，用于处理爬取到的数据并进行存储或进一步处理。祝你在写作的道路上越走越远！期待你更多的精彩内容。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。