网络爬虫初步认识

最新推荐文章于 2023-03-06 13:05:29 发布

kuaileshenxian1234

最新推荐文章于 2023-03-06 13:05:29 发布

阅读量968

点赞数

文章标签：网络爬虫搜索引擎网络数据结构算法 html

网络爬虫初步认识

网络爬虫初步认识
网络爬虫（Spider），又叫网络蜘蛛，，它是搜索引擎的主要模块：网络蜘蛛负责抓取网络上的网页数据，再通过分词技术对网页数据建立索引，然后对网页根据一些相关性排序。

基本原理：Spider通过网页上的链接从一个网页（一般是首页）访问到另一个网页，从而实现对整个网络的数据收集。其实是把网状转变成树形去遍历，对树的遍历我们知道有广度优先和深度优先，一般采用广度优先。我们还知道遍历树有前序、中序和后序，不同的搜索引擎遍历顺序各不同。

流程参考：1，建立一个队列，把首页地址放入队列
2，从队列中取出一个地址，访问改地址，并对返回的数据（一般是HTML文件）进行分析，遇到href（链接）并分析后放入到队列中
3，重复2，直到队列为空

如果是广度遍历，为了效率我们可以设定一个级别，如果该页面与首页的关系度超过这个级别，则不放入队列。对于页面节点可以采用hashtable数据结构，这样加入一个是否已经被网络蜘蛛爬过的标志变量，防止重复访问。

对链接的分析是个难点，需要较好的算法对其支持。

kuaileshenxian1234

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。