网络爬虫初步认识
网络爬虫初步认识 网络爬虫(Spider),又叫网络蜘蛛,,它是搜索引擎的主要模块:网络蜘蛛负责抓取网络上的网页数据,再通过分词技术对网页数据建立索引,然后对网页根据一些相关性排序。 基本原理:Spider通过网页上的链接从一个网页(一般是首页)访问到另一个网页,从而实现对整个网络的数据收集。其实是把网状转变成树形去遍历,对树的遍历我们知道有广度优先和深度优先,一般采用广度优先。我们还知道遍历树有前序、中序和后序,不同的搜索引擎遍历顺序各不同。 流程参考:1,建立一个队列,把首页地址放入队列 2,从队列中取出一个地址,访问改地址,并对返回的数据(一般是HTML文件)进行分析,遇到href(链接)并分析后放入到队列中 3,重复2,直到队列为空 如果是广度遍历,为了效率我们可以设定一个级别,如果该页面与首页的关系度超过这个级别,则不放入队列。对于页面节点可以采用hashtable数据结构,这样加入一个是否已经被网络蜘蛛爬过的标志变量,防止重复访问。 对链接的分析是个难点,需要较好的算法对其支持。 |