搜索引擎早期重要论文推荐系列【2】

《challenge in web search engine》MR Henzinger, R Motwani, C Silverstein - ACM SIGIR Forum, 2002

 

推荐理由:

       工程价值  4星  

       学术价值  2星   

       可读性     5星

 

本文例举了搜索引擎面对的主要难题,每一个难题都可以设一个单独的小组来完成。

让我们来看看都有哪些?

 

Spam(作弊),反作弊是搜索引擎主要难点,也是命门,搜索引擎的公信度是最重要的产品品质的体现,为了获得流量,搜索引擎作弊不断花样翻新,防不慎防。

 

Content Quality(内容质量),早期的搜索引擎不成功主要是因为内容质量缺少可行方法,google早期很大程度上得益于PageRank的成功,包括技术上和宣传上的成功,虽然Pagerank也在被不断地利用,从而降低了排名的权重,但其思路确影响深远,例如BBS的link,Toolbar的link,用户点击的行为都被看做是网页内容评判的标准,前不久据说google对facebook中引用的站点和网页给与较高的权重。

 

Duplicate Host(多域名),这主要是搜索引擎的去重,目前基本采用bloom filter或改进方法来做早期抓取排重,后期做库排重,检索结构排重均采用一些简单有效的方法,因此这个问题目前并不算难题。

 

Vaguely-Stuctured Data(网页的弱结构化),这主要是信息抽取的问题,由于网页的弱结构,不同网站千姿百态,信息抽取要做到适应全部网站非常困难,以至于无数的规则的累积。

 

详细内容可以参见:

http://ce.sharif.ac.ir/courses/84-85/1/ce324/resources/root/Useful%20Resources/Challenges%20in%20Web%20Search%20Engines.pdf

 

如果说目前还有那些难题,我想可以补充这样几点

Ranking(排序),这可能是最困难,也是目前解决的最不好的一项,如何把握用户输入的query的意图,给出最佳答案,也许是永无止境的工作。

 

Efficience(效率),一次搜索不仅要越快越好,同时也需要节省费用,将每一次搜索的成本降低,且保证优越的用户体验,也是非常困难的。这需要在各个部分进行不断地优化,前端,索引,分词,无不例外。

 

Stability(稳定性),保证持续稳定的运营,错误用户无感知或弱感知,也是非常困难的。

 

Ad(广告),搜索广告的准确性,有效性,消耗的控制,这也是目前搜索引擎亟待解决的问题

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值