一篇了解爬虫技术方方面面

最新推荐文章于 2023-09-22 09:33:06 发布

Linux云计算和Python技术普及者

最新推荐文章于 2023-09-22 09:33:06 发布

阅读量362

点赞数

分类专栏： Python头条文章标签： python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43083284/article/details/88873938

版权

原理

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；

所以一个完整的爬虫一般会包含如下三个模块：

网络请求模块
爬取流程控制模块
内容分析提取模块

网络请求

我们常说爬虫其实就是一堆的http(s)请求，找到待爬取的链接，然后发送一个请求包，得到一个返回包，当然，也有HTTP长连接(keep-alive)或h5中基于stream的websocket协议，这里暂不考虑；

所以核心的几个要素就是：

url
请求header、body
响应herder、内容

URL

爬虫开始运行时需要一个初始url，然后会根据爬取到的html文章，解析里面的链接，然后继续爬取，这就像一棵多叉树，从根节点开始，每走一步，就会产生新的节点。为了使爬虫能够结束，一般都会指定一个爬取深度(Depth)。

Http请求

http请求信息由请求方法(method)、请求头(headers)、请求正文(body)三部分组成。由于method一般是header中的第一行，也可以说请求头中包含请求方法，下面是chrome访问请求头的一部分：

对于爬虫需要注意的是请求方法是post时，需要将请求的参数先进行urlencode后再发送，后台收到请求信息后可能会做一些校验，这可能会影响到爬取，相关的header字段如下：

Basic Auth

这是一种古老的、不安全的用户验证方式，一般会有用户授权的限制，会在headers的Autheration字段里要求加入用户名密码(明文)，如果验证失败则请求就会失败，现在这种认证方式正在被淘汰。

Referer

链接的来源，通常在访问链接时&#

最低0.47元/天解锁文章

Linux云计算和Python技术普及者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一篇了解爬虫技术方方面面

原理传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。