13.scrapy入门

最新推荐文章于 2024-08-05 10:37:56 发布

天天501

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量60

点赞数

分类专栏： python爬虫实战教程文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_65898266/article/details/133720491

版权

python爬虫实战教程专栏收录该内容

28 篇文章 19 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了网络爬虫的基础知识，包括请求数据、解析数据和保存数据的流程。接着，文章详细讲解了Scrapy爬虫框架的安装、基本命令和创建第一个Scrapy爬虫的步骤。内容涵盖项目需求、项目结构、Spider类、Item和scrapy.Request的使用。通过实例展示了如何使用Scrapy编写和运行爬虫，提取并保存数据。

摘要由CSDN通过智能技术生成

1、scrapy简介

1、1 网络爬虫

网络爬虫是指在互联网上自动爬取网站内容信息的程序，也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域，个人用户或企业也可以利用爬虫收集对自身有价值的数据。

一个网络爬虫程序的基本执行流程可以总结三个过程：请求数据， 解析数据， 保存数据

1、1、1 请求数据

请求的数据除了普通的HTML之外，还有 json 数据、字符串数据、图片、视频、音频等。

1、1、2 解析数据

当一个数据下载完成后，对数据中的内容进行分析，并提取出需要的数据，提取到的数据可以以多种形式保存起来，数据的格式有非常多种，常见的有csv、json、pickle等

1、1、3 保存数据

最后将数据以某种格式（CSV、JSON）写入文件中，或存储到数据库（MySQL、MongoDB）中。同时保存为一种或者多种。

通常，我们想要获取的数据并不只在一个页面中，而是分布在多个页面中，这些页面彼此联

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄3年

188
原创

652
点赞

1003
收藏

611
粉丝

关注

私信

热门文章

分类专栏

最新评论

关于qq邮箱smtp服务器端口报错
Kwan的解忧杂货铺@新空间代码工作室: 你的博文让我不再感到茫然，提供了明晰的方向，每一次阅读都是一次心灵的提升，你的分享总是如此珍贵，真的非常感谢你一直以来的奉献。期待更多知识的分享。
Java 运算符
Kwan的解忧杂货铺@新空间代码工作室: 博主的文字总是富有深度，每一篇都像一场精彩的教育之旅，你的博文总是让我充满了对未知领域的好奇心，期待更多的智慧分享。非常感谢你的专业分享。
Java 对象和类
Kwan的解忧杂货铺@新空间代码工作室: 你的文章总是让我拓展了视野，增长了见识，每篇博文都是知识的瑰宝，我真的很喜欢你的风格，感谢你的专业分享。期待你的下一次精彩分享。
go变量和声明
Kwan的解忧杂货铺@新空间代码工作室: 感谢博主的分享，每一篇文章都是一份珍贵的学习资料。博主的文章写得非常详细，让我不仅学到了知识，还培养了对这个领域的浓厚兴趣。期待未来更多的独到见解和教程！希望博主能继续分享这样有深度的文章！
字符串相加
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是内容丰富，讲解得非常清晰，每次都是一次启发，你的博客如同一本知识宝典，每次阅读都充实了我的思维，期待博主下次更新。真的很感谢你的贡献。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

天天501 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。