自己动手写爬虫

一:全面剖析网络爬虫


URI:
web上各种可用的资源,如HTML文档,图像,视频,程序等都由一个通用资源标志符(URI)进行定位。
URI通常三部分组成:
1.访问资源的命令机制
2.存放资源的主机名
3.资源自身的名称,由路径表示
文件的URL:
用URL表示文件时,服务器方式用file表示,后面要有IP地址,文件的存取路径(即目录)和文件名等信息。有时可省略目录和文件名,但“/”符号不能省略

大致步骤:
GET:

POST:

与get方法不同,post方法可以使用NameValuePair来设置参数,因此可以设置“无限”多的参数。而get方法采用把参数写在URL里面的方式,由于URL有长度限制,因此传递参数的长度也会有限制。

宽度优先爬虫:
实际的爬虫项目是从一系列的种子链接开始的。所谓的种子链接,就好比宽度优先遍历中的种子结点一样。但是种子链接可以有多个。
带偏好的爬虫:
判断网页的重要性的因素有很多,主要有链接的欢迎度,链接的重要度和平均链接深度,网站质量,历史权重等主要因素。
链接的欢迎度主要是由反向链接(backlinks,即指向当前URL的链接)的数量和质量决定的,定义为IB(P)。
链接的重要度,是一个关于URL字符串的函数,仅仅考察字符串本身,比如认为“.com”和“home”的URL重要度比“.cc”和”map“高,定义为IL(P)。
平均链接深度,根据上面所分析的宽度优先原则计算出全站的平均链接深度,然后距离种子站点越近的重要性越高,定义为ID(P)。

定义网页的重要性为I(P),那么:
I(P) = X*IB(P)+Y*IL(P)
X,Y表示所占比例大小,ID(P)由宽度优先的遍历规则保证。
如何实现最佳爬虫呢?
可以使用优先队列来实现TODO表,并且把每个URL的重要性作为队列元素的优先级。
在带偏好的爬虫里,队列元素的优先级是由URL的优先级确定的。关于如何确定URL的优先级,有一些专用的链接分析的方法࿰

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值