网络爬虫初步认识

网络爬虫初步认识

网络爬虫初步认识
网络爬虫(Spider),又叫网络蜘蛛,,它是搜索引擎的主要模块:网络蜘蛛负责抓取网络上的网页数据,再通过分词技术对网页数据建立索引,然后对网页根据一些相关性排序。

基本原理:Spider通过网页上的链接从一个网页(一般是首页)访问到另一个网页,从而实现对整个网络的数据收集。其实是把网状转变成树形去遍历,对树的遍历我们知道有广度优先和深度优先,一般采用广度优先。我们还知道遍历树有前序、中序和后序,不同的搜索引擎遍历顺序各不同。

流程参考:1,建立一个队列,把首页地址放入队列
                2,从队列中取出一个地址,访问改地址,并对返回的数据(一般是HTML文件)进行分析,遇到href(链接)并分析后放入到队列中
               3,重复2,直到队列为空

如果是广度遍历,为了效率我们可以设定一个级别,如果该页面与首页的关系度超过这个级别,则不放入队列。对于页面节点可以采用hashtable数据结构,这样加入一个是否已经被网络蜘蛛爬过的标志变量,防止重复访问。

对链接的分析是个难点,需要较好的算法对其支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值