预处理

    对服务子程序来说,现行最有效的数据结构是“倒排文件”,即用文档中所含关键词为索引,文档作为索引目标的一种结构。从海量的原始网页集合到形成倒排文件的过程,即预处理。主要包含四个方面:

1. 关键字的抽取:
    网页文档源文件的大小(字节量)通常大约是其中内容大小的4倍。除内容外,还含html标记、广告、版权信息等等,这些情况给有效的信息查询带来挑战,也带来机遇。为了支持查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征。从人们现在的认识和实践来看,所含的关键词即为这种特征最好的代表。于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。对于中文来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了,p = {t1, t2, …, tn}。一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现。从效果和效率考虑,不应该让所有的词都出现在网页的表示中,要去掉诸如“的”,“在”等没有内容指示意义的词,称为“停用词”(stop word)。一般对一篇网页来说,有效的词语数量大约在200个左右

2. 镜像网页和转载网页的消除:
    由于网页的复制、转载、修改再发表,因此Web上存在大量的重复信息。据统计分析,网页的重复率平均大约为4。也就是说,有4个URL的网页内容基本相同或相似。这给广大网民提供了更好的信息访问机会,同时,也给搜索引擎带来负面影响。因为在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义地消耗了计算机显示屏资源,也会引来用户的抱怨。因此,消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。

3. 链接分析:
    所谓链接分析是指对链接数量和质量的评估及分析。一般来说,通常被链接越多的网页越重要,搜索引擎需要对该网站上外来链接的总数量(即链接流行度)进行跟踪索引。同时为了抵消对页面恶意操纵,比如创建虚假链接等不良竞争,也需要把考虑其权值。通常,可以把该网页出自的网站的信誉值,众所周之,一个来自于sina等的信息一般来说是比一个不知名网站的信息更重要。对这个权值,作为衡量一个网站好坏的标准,就是seo们经常提到的pr(PageRank)。比如google就分为1~10级,呵呵,google就把自己定位10级,国际知名网站比如www.yahoo.com,www.microsoft.com等就属于9级,国内的门户网站比如sina、sohu都属于8级,一般PR值达到4,就算是一个不错的网站了。有兴趣的可以自己去试试自己熟悉的网站属于什么级别,测试网站: http://rankwhere.com/google-page-rank.php

4. 网页重要程度的计算:
    搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个问题。在预处理阶段形成的,和用户查询无关,人们参照科技文献重要性的评估方式,核心想法就是“被引用多的就是重要的”。除此以外,人们还注意到网页和文献的不同特点,即一些网页主要是大量对外的链接,其本身基本没有一个明确的主题内容,而另外有些网页则被大量的其他网页链接。从某种意义上讲,这形成了一种对偶的关系,这种关系使得人们可以在网页上建立另外一种重要性指标。这些指标有的可以在预处理阶段计算,有的则要在查询阶段计算,但都是作为在查询服务阶段最终形成结果排序的部分参数。
    大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据的就是“共有词汇假设”(shared bag of words),即内容所包含的关键词集合,最多加上词频(term frequency 或tf、TF)和词在文档集合中出现的文档频率(document frequency 或df、DF)之类的统计量。而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性,这是有意义的。有了HTML标记后,情况还可能进一步改善,例如在同一篇文档中,<H1>和</H1>之间的信息很可能就比在<H4>和</H4>之间的信息更重要。特别地,HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值