《challenge in web search engine》MR Henzinger, R Motwani, C Silverstein - ACM SIGIR Forum, 2002
推荐理由:
工程价值 4星
学术价值 2星
可读性 5星
本文例举了搜索引擎面对的主要难题,每一个难题都可以设一个单独的小组来完成。
让我们来看看都有哪些?
Spam(作弊),反作弊是搜索引擎主要难点,也是命门,搜索引擎的公信度是最重要的产品品质的体现,为了获得流量,搜索引擎作弊不断花样翻新,防不慎防。
Content Quality(内容质量),早期的搜索引擎不成功主要是因为内容质量缺少可行方法,google早期很大程度上得益于PageRank的成功,包括技术上和宣传上的成功,虽然Pagerank也在被不断地利用,从而降低了排名的权重,但其思路确影响深远,例如BBS的link,Toolbar的link,用户点击的行为都被看做是网页内容评判的标准,前不久据说google对facebook中引用的站点和网页给与较高的权重。
Duplicate Host(多域名),这主要是搜索引擎的去重,目前基本采用bloom filter或改进方法来做早期抓取排重,后期做库排重,检索结构排重均采用一些简单有效的方法,因此这个问题目前并不算难题。
Vaguely-Stuctured Data(网页的弱结构化),这主要是信息抽取的问题,由于网页的弱结构,不同网站千姿百态,信息抽取要做到适应全部网站非常困难,以至于无数的规则的累积。
详细内容可以参见:
如果说目前还有那些难题,我想可以补充这样几点
Ranking(排序),这可能是最困难,也是目前解决的最不好的一项,如何把握用户输入的query的意图,给出最佳答案,也许是永无止境的工作。
Efficience(效率),一次搜索不仅要越快越好,同时也需要节省费用,将每一次搜索的成本降低,且保证优越的用户体验,也是非常困难的。这需要在各个部分进行不断地优化,前端,索引,分词,无不例外。
Stability(稳定性),保证持续稳定的运营,错误用户无感知或弱感知,也是非常困难的。
Ad(广告),搜索广告的准确性,有效性,消耗的控制,这也是目前搜索引擎亟待解决的问题