搜索引擎三大定律

转载 2006年06月06日 15:13:00
[出自搜索引擎直通车]
搜索引擎走到今天,已经是一个结束过去,开辟未来的时候了。为了说清楚我所讲的第三定律,我们先来回顾一下第一和第二定律。

第一定律 相关性定律
 听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得到了公认。其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有叫全文检索的。

 那时的相关性都是基于词频统计的,也就是说,当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面) 。早期的搜索引擎结果排序都是基于本文的第一定律的,如Infoseek,Excite,Lycos等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。

 词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术。然而,网络时代的主要文献是以网页的形式存在的,而几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远,可是按照搜索引擎的第一定律,对这两个网页的排序应该是一样的。为了能够派在某些检索结果的前几位,许多网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,搜索引擎对此防不胜防,苦不堪言。这种情况到了 1996年开始有了改变。

第二定律 人气质量定律
 1996年4月,我到赌城拉斯维加斯开一个有关信息检索方面的学术会议,会议的内容就象拉斯维加斯的天气一样,照例比较枯燥乏味。但远离公司的我,却难得有一个静下心来认真思考问题的机会。就在听一个毫不相干的论文演讲的时候,我突然把科学引文索引的机制跟Web上的超级链接联系起来了 - 感谢北大,她在我上大三的时候就教授了我科学引文索引的机制,美国恐怕没有一所大学会在你本科的时候教这玩艺儿。

 科学引文索引的机制,说白了就是谁的论文被引用次数多,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺。在加上相应的链接文字分析,就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律:人气质量定律。根据这一定律,搜索结果的相关性排序,并不完全依赖于词频统计,而是更多地依赖于超链分析。

 我意识到这是一个突破性的东西,回去以后就很快总结了思路,于96年6月申请了这一方面的美国专利。1999年 7月6号,美国专利和商标局批准了专利号为5,920,859的,以我为唯一发明人的专利。大约在96年底,斯坦福大学计算机系的两位研究生也想到了同样的解决方法,他们后来创立了一个叫Google的搜索引擎,Google的网站上至今仍然说他们的这项技术是Patent-pending (专利申请中) ,不知道美国专利局是不是还会再批这样的专利。Anyway, 超链分析的方法98年以后逐渐被各大搜索引擎所接受,由于链接是网络内容的一个根本特性,这时候的搜索引擎才开始真正利用网络时代的检索技术。世事难料,2000年起网络泡沫迅速破灭,各大搜索引擎要么遭人收购,要么推迟上市,所有使用人气质量定律的搜索引擎公司都未能幸免。那么,搜索引擎的出路到底在哪儿?

第三定律 自信心定律
 人气质量定律解决的还是一个技术层面的问题,然而搜索引擎从诞生的那一天起,从来就不是一个纯技术现像,它融合了技术,文化,市场等各个层面的因素。解决搜索引擎公司的生存和发展问题需要搜索引擎的第三定律--自信心定律。

 1998年的时候,没有太多的人拿一家远在硅谷500英里以外,刚刚成立的,叫作GoTo.com(现已更名为Overture)的公司当回事儿。它不过是买了一个搜索引擎的技术服务,然后再向那些网站的拥有者们拍卖他们网站在GoTo检索结果中的排名,谁付的钱多,谁的网站就排在前面,而且付费是根据网民点击该网站的情况来计算的,仅仅在搜索结果中出现并不需要付费。这就是自信心定律的最早实践者!根据这一定律,搜索结果的相关性排序,除了词频统计和超链分析之外,更注重的是竞价拍卖。谁对自己的网站有信心,谁就排在前面。有信心的表现就是愿意为这个排名付钱。需要声明的是,自信心定律也是我自己给这一模式起的名字,以前的文献中并没有人这样总结过。

 今天,在网络业一片萧条,那斯达克风声鹤唳的时候,GoTo却如日中天,市值高达13亿美金,收入高达雅虎总收入的35%。反观门户网站,有哪一个能从它们的搜索引擎服务中赚出总收入的三分之一呢?究其原因,就是因为GoTo最早实践了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM来收费的,而CPM是从传统广告业借鉴过来的,没有考虑网络媒体即时性,交互性,易竞价的特点,而竞价排名,点击收费则是为网站拥有者直接提供销售线索,而不是传统意义上的广告宣传。自信心定律一改过去搜索引擎靠CPM收钱的尴尬局面,开创了真正属于互联网的收费模式。

 在中国,百度一直致力于推动搜索引擎市场的培植和发展,现在,我们联合了各大门户网站的搜索引擎,一起通过百度的竞价排名系统来实践搜索引擎的第三定律,为数十万网站的拥有者提供一个展示自信心,吸引潜在客户,发现销售线索的平台。

相关文章推荐

程序员debug三大定律

声明 首先声明,本文其实是写给管理程序员的人看的。如果你是程序员,看了以后可能会对你的职业生涯产生负面影响,慎入! 至于其他闲杂人等,可以了解一下码农的工作状态,看个乐子。 什...

IT世界三大定律

摩尔定律 摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的。其内容为:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。...

奈奎斯特三大准则和香农定律

奈奎斯特第一准则        1924年,奈奎斯特(Nyquist)就推导出在理想低通信道下的最高码元传输速率的公式: 理想低通信道下的最高码元传输速率=2W Baud 其中W...

乔布斯死因之情感三大定律的分析

乔布斯死因之情感三大定律的分析   作者:周伟明     注:凡转载请注明出处   今天打开电脑一看,乔布斯逝世了,才56岁,年纪轻轻就去世,实在是令人惋惜。有鉴于IT业英年早逝的人太多了,忍...

互联网产品用户体验设计的三大定律

好友发过来一PPT,文件名是互联网产品的体验设计,认真看完,收获颇多,其中印象最深刻的是用户体验可用性的三大定律,正好FasterSoft正在打造互联网精品平台iWorld,最需要的时候好东西就上门来...

三大搜索引擎PK,孰能更胜一筹?

业界谈论到SEO优化首先想到的就是百度SEO,确实作为中国市场上的搜素引擎老大,百度的地位的不容置疑的。但是,作为SEOer我们不能忽略的还有新起之秀的奇虎360和强强联合的搜狗。     ...

做网站的人必看的N大定律

做网站的人必看的N大定律 1.马蝇效应    林肯少年时和他的兄弟在肯塔基老家的一个农场里犁玉米地,林肯吆马,他兄弟扶犁,而那匹马很懒,慢慢腾腾,走走停停。可是有一段时间马走得飞快。林肯感到奇怪,到了...

交互设计七大定律

[核心提示] “除非有更好的选择,否则就遵从标准”,那在交互设计领域都有哪些法则定律被认作了标准了呢?  Alan Cooper:除非有更好的选择,否则就遵从标准。 作为交互设计之父的阿兰·库...

IT 人需知道的十大定律

身为极客的你一定要了解主宰技术发展与应用的十大定律。废话少说,我们直奔主题。(文章来自36氪) 一、阿姆达尔定律—以计算机架构师吉恩·阿姆达尔的名字命名的定律,用于寻找仅对系统的一部分进行改进时...
  • ta_nk
  • ta_nk
  • 2012-09-02 15:48
  • 1076
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)