Python学习之路-初识爬虫:基础知识

最新推荐文章于 2024-11-01 14:32:23 发布

geobuins

最新推荐文章于 2024-11-01 14:32:23 发布

阅读量398

点赞数 8

文章标签： jmeter

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/geobuins/article/details/136043393

版权

Python学习之路-初识爬虫:基础知识

什么是爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做

用途

如今，人工智能，大数据离我们越来越近，很多公司在开展相关的业务，但是人工智能和大数据中有一个东西非常重要，那就是数据，但是数据从哪里来呢？这时候爬虫的用途就凸显出来了，他可以做到以下几个方面

进行在网页或者是app上进行展示
进行数据分析或者是机器学习相关的项目
12306抢票
商品价格历史记录

不仅仅是以上用途，爬虫用途非常广泛。

分类

根据被爬网站的数量的不同，我们把爬虫分为：

通用爬虫：通常指搜索引擎的爬虫
聚焦爬虫：针对特定网站的爬虫

流程

聚焦爬虫

一般情况下我们会通过一个起始URL去获取到响应内容，根据响应内容提取我们需要的数据与需要爬取的URL，数据可以入库保存，提取到的URL进行进一步爬取。

通用爬虫

搜索引擎爬虫会通过抓取网页将获取到的数据存储，并进行预处理，然后对外提供检索服务，并对抓取到的网页进行排名。

搜索引擎的局限性

通用搜索引擎所返回的网页里90%的内容无用。
图片、音频、视频多媒体的内容通用搜索引擎无能为力
不同用户搜索的目的不全相同，但是返回内容相同

robots协议

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是道德层面上的约束

浏览器发送HTTP请求的过程

浏览器会主动请求js，css等内容，js会修改页面的内容，js也可以重新发送请求，最后浏览器渲染出来的内容在elements中，其中包含css，图片，js，url地址对应的响应等。

但是在爬虫中，爬虫只会请求url地址，对应的拿到url地址对应的响应

浏览器渲染出来的页面和爬虫请求的页面并不一样

所以在爬虫中，需要以url地址对应的响应为准来进行数据的提取

url的形式

url的形式：scheme://host[:port#]/path/…/[?query-string][#anchor]

scheme：协议(例如：http, https, ftp)
host：服务器的IP地址或者域名
port：服务器的端口（如果是走协议默认端口，80 or 443）
path：访问资源的路径
query-string：参数，发送给http服务器的数据
anchor：锚（跳转到网页的指定锚点位置）
- http://localhost:4000/file/part01/1.2.html
- url地址中是否包含锚点对响应没有影响

HTTP常见请求头

Host (主机和端口号)
Connection (链接类型)
Upgrade-Insecure-Requests (升级为HTTPS请求)
User-Agent (浏览器名称)
Accept (传输文件类型)
Referer (页面跳转处)
Accept-Encoding（文件编解码格式）
Cookie （Cookie）
x-requested-with :XMLHttpRequest (是Ajax 异步请求)

响应状态码(status code)

常见的状态码：

200：成功
302：临时转移至新的url
307：临时转移至新的url
404：not found
500：服务器内部错误

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

geobuins CSDN认证博客专家 CSDN认证企业博客

码龄1年

124: 原创

106万+: 周排名

4万+: 总排名

12万+: 访问

: 等级

3935: 积分

2033: 粉丝

2691: 获赞

13: 评论

2263: 收藏

私信

关注

热门文章

最新评论

Python学习之路-Django基础:数据库
老覃头: 很用心记录，加油。
一篇文章学会Linux
CSDN-Ada助手: 恭喜您能够写出这样一篇关于学习Linux的文章，内容详实，通俗易懂，对于初学者来说非常有帮助。希望您能够继续保持创作的热情，不断分享您的学习心得和经验。下一步，或许可以考虑写一些关于Linux系统优化或者高级应用方面的内容，以及一些实用的技巧和工具推荐，这样可以更全面地帮助读者提升Linux应用水平。期待您更多精彩的文章！
一篇文章学会Git
小钟佳运: 感谢博主的优质好文，文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文！
Python学习之路-单元测试
CSDN-Ada助手: 恭喜你写了第20篇博客！Python学习之路-单元测试这个主题很有深度，能够帮助更多的读者了解Python的学习方法。建议下一步可以考虑分享一些实际应用的案例，或者深入探讨一些高级技巧。希望你能够继续保持创作的热情，为大家带来更多有价值的内容。加油！
一篇文章学会Git
CSDN-Ada助手: 恭喜您撰写了这篇学习Git的文章！能够将知识分享给他人是一种很了不起的能力。接下来，我建议您可以考虑写一些关于Git实际应用场景的文章，比如如何在团队协作中使用Git，或者如何解决常见的Git问题等等。希望您能继续坚持创作，期待您更多优质的文章！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

geobuins 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。