搜索
lizhi200404520
喜欢足球,篮球
展开
-
浅谈互联网页面价值
搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判断页面的价值呢?本文将逐一回答这些问题。一、 什么页面价值。前面我们说了,某个页面满足了某一用户的转载 2011-06-17 15:56:00 · 1220 阅读 · 0 评论 -
得用户者得天下
子曾经曰过,“得用户者得天下”!,搜索引擎的使命是帮助用户更便捷的获取信息,找到所求。所以,要做一个好的搜索引擎,至少需要做好三件事情,即理解用户意图、理解资源,以及做好这两者的匹配。通过传统的文本分析技术,比如TF-IDF、BM25等,可以很容易地把这些事情做到70分,但再往下做就越来越难。这时候,有聪明人发现,除了基本的文本之外,超链信息能够帮助我们更好的理解和匹配资源,于是就有了超链分析转载 2011-06-17 16:28:00 · 835 阅读 · 0 评论 -
倒排文件索引(Inverted File Index)的建立
5.2 建立索引目前主流的索引技术有三种:倒排文件、后缀数组和签名。后缀数组的方法虽然快,但是其维护困难,代价相当高,不适合做引擎的索引。签名是一种很好的索引方式,但倒排文件的速度和性能已经超过了签名。倒排文件是一种在各大搜索引擎中被主要使用的索引的方式,并且它也是搜索引擎中一个核心的技术。5.2.1 倒排文件索引(Inverted File Index)的建立倒排索引文件是一种面转载 2011-06-20 15:09:00 · 1682 阅读 · 0 评论