自己动手写爬虫

最新推荐文章于 2024-07-26 22:40:18 发布

he_world

最新推荐文章于 2024-07-26 22:40:18 发布

阅读量3k

点赞数 1

分类专栏：后端开发文章标签： url html 爬虫服务器网络爬虫

本文链接：https://blog.csdn.net/he_world/article/details/52266262

版权

本文全面剖析网络爬虫，从URI和URL的概念到GET、POST请求，介绍宽度优先和带偏好的爬虫策略。讨论了爬虫队列、URL存储、布隆过滤器以及DNS解析优化。此外，探讨了分布式爬虫的实现，如Hadoop MapReduce的三个步骤。最后，文章提及了主题爬虫和限定爬虫的设计策略，包括如何控制抓取的相关性和范围。

摘要由CSDN通过智能技术生成

一：全面剖析网络爬虫

URI：
web上各种可用的资源，如HTML文档，图像，视频，程序等都由一个通用资源标志符（URI）进行定位。
URI通常三部分组成：
1.访问资源的命令机制
2.存放资源的主机名
3.资源自身的名称，由路径表示
文件的URL:
用URL表示文件时，服务器方式用file表示，后面要有IP地址，文件的存取路径（即目录）和文件名等信息。有时可省略目录和文件名，但“/”符号不能省略。

大致步骤：
GET:

POST:

与get方法不同，post方法可以使用NameValuePair来设置参数，因此可以设置“无限”多的参数。而get方法采用把参数写在URL里面的方式，由于URL有长度限制，因此传递参数的长度也会有限制。

宽度优先爬虫：
实际的爬虫项目是从一系列的种子链接开始的。所谓的种子链接，就好比宽度优先遍历中的种子结点一样。但是种子链接可以有多个。
带偏好的爬虫：
判断网页的重要性的因素有很多，主要有链接的欢迎度，链接的重要度和平均链接深度，网站质量，历史权重等主要因素。
链接的欢迎度主要是由反向链接（backlinks，即指向当前URL的链接）的数量和质量决定的，定义为IB(P)。
链接的重要度，是一个关于URL字符串的函数，仅仅考察字符串本身，比如认为“.com”和“home”的URL重要度比“.cc”和”map“高，定义为IL(P)。
平均链接深度，根据上面所分析的宽度优先原则计算出全站的平均链接深度，然后距离种子站点越近的重要性越高，定义为ID(P)。

定义网页的重要性为I(P)，那么：
I(P) = X*IB(P)+Y*IL(P)
X,Y表示所占比例大小，ID(P)由宽度优先的遍历规则保证。
如何实现最佳爬虫呢？
可以使用优先队列来实现TODO表，并且把每个URL的重要性作为队列元素的优先级。
在带偏好的爬虫里，队列元素的优先级是由URL的优先级确定的。关于如何确定URL的优先级，有一些专用的链接分析的方法࿰