WWW超链分析技术及其应用

WWW超链分析技术及其应用

■ 吴 江

《中国信息导报》2004年第3期  电脑网络-信息技术

<script type="text/javascript"> </script> <script src="" type="text/javascript"> </script>

   最近几年,许多研究者发现,WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大地提高检索结果的质量。超链分析技术,是新一代搜索引擎的关键技术。
  
  
  
   1、基本原理
  超链分析的基本原理是 在某次搜索的所有结果中,被其他网页用超链指向得越多的网页,其价值就越高,就越应该在结果排序中排到前面。
  超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合量性,因为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可以反映网页的重要程度,从而给用户提供出更重要、更有价值的搜索结果。
  搜索引擎,也不能真正理解网页上的内容,它只能机械地匹配网页上的文字。其收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
  搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之间的关联程度以及一个站点在整个网络上的关联程度来确定的。
  使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链接的URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词,比如”软件”,但如果有别的网页B用链接”软件”指向这个网页A,那么用户搜索”软件”时也能找到网页A。而且,如果有越多网页(C、D、E、F·· )用名为“软件”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F… )越优秀,那么网页A在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。
   2、工作步骤搜索引擎的工作步骤有步 从互联网上抓取网页一建立索引数据-在索引数据库中搜索排序。
  (1)从互联网上抓取网页专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络间爬来爬去,利用能够从互联网上自动收集网页的Spider系统程序, 自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来,随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难。因此,在Wan-derer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。
  (2)建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
  (3)索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
  
  3、搜索效果
  搜索引擎Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。
  互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量达到几千C甚至几万G。但即使最大的搜索引擎建立超过20亿网页的索引数据库,也占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。
  使用超链分析的搜索引擎未能收录的网页有Spider未能正确处理的网页性质及文件类型(如flash、script、ps,某些动态网页及frame、数据库),没有主动登录搜索引擎而且没有指向链接的孤岛网页,Spider访问时因为某些原因正好是死链接的网页,被认为是劣质网页而不抓,因为色情、反动、spam等问题而不抓的非法网页,需要输入用户名、密码方可打开的网页,网站用robots协议拒绝搜索引擎抓取的网页,搜索引擎还未来得及抓取的新网页,go-pher、newsgroups、Telnet、np、wais等非http信息的网页。
  任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。这些网页通常由CGL、PHP、ASP等程序产生,技术上较先进,但不适合搜索引擎的“蜘蛛”程序。虽然目前有的大型搜索引擎(如Google)已具备检索动态网页的能力,但相当一部分引擎还是不支持它的。而且即使是能够索引动态网页的Google,也在多个场合中明确表示不保证检索全部的动态网页。
   4、超链分析技术的应用
  超链分析技术已为世界各大搜索引擎普遍采用,在我国使用该项技术的搜索引擎有,
  百度(http://www.baidu.com)搜索引擎使用了高性能的”网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中文互联网拥有天然优势,支持搜索1.3亿个中文网页,是现在最大的中文搜索引擎。并且,百度每天都在增加几十万新网页,对重要中文网页实现每天更新。百度除了用超链分析排名外还开展竞价排名。具有网页快照,相关搜索、中文人名识别、简繁体中文自动转换、网页预览等功能,还可以进行专业的MP3搜索、Flash搜索、新闻搜索、图片搜索、信息快递搜索。百度总裁李彦宏就是超链分析专利的惟一持有人。
  引入人工智能的慧聪(http://www.huicong.com)行业搜索引擎对于商务人士而言尤为有用。笔者通过比较慧聪搜索引擎与G009le的差别发现,在Google上,输入”化工”,搜索出相关网页有138万个,里面包罗万象,有用的、无用的混杂在一起,如果用户想找的网站正好排名在上千、上万个以后,无疑面对的是一个茫茫网海,找到这个信息十分困难。再看慧聪行业搜索引擎,弹出的首先是一个分类页面,列有有机化工、石油化工、精细化工、印刷化工等43个行业分类的条目,虽然只有1万多条查询结果,针对性却非常强,用户可以快速找到自己需要的信息,网站与有效用户的见面机会大大增强。模拟人类智慧,更好地使用技术来完成更具智慧的搜索,必然是下一代搜索引攀技术的发展趋势。
  
   5、存在的缺陷
  用户在搜索关于某些内容的有效信息时,最大的特点是各异性。利用超链分析技术,用户将接受一种根据某种标准进行网页排名的信息服务,从而演变成为各网站想尽办法追求网页排名的商业活动。
  海量的网页被收集回来,用姓名、电话、单位名称或网名都可以搜索到许多含有此关键字的信息,这些信息有不少侵权、侵犯隐私、泄露机密的信息,尤其是大量论坛的贴子被收录,不少贴子言论含有攻击的成分。所以如何及时处理掉这些链接又是搜索引擎急需解决的问题

 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值