搜索引擎暗规则序 [转】

原创 2005年04月23日 00:32:00
中国人有句古话叫做:“学以至用”。若干年我一直对这句话封为神灵,因为只用致用才能看到学的效果,了解到学的不足,享受到学的快乐。

搜索引擎在过去两年的发展并没有大突破,但是却逐步走向成熟,走向商业。正是这两年的时间,部分的业余时间都用来做一些开发和研究,当我逐渐了解的更多的时候,也是我结束单枪披马的时候。未来的兴趣也许会转向分类技术,因此希望能够用这个系列为这段成长岁月化上句号。

所谓暗规则,其实就是一些生活中非常显然的规则,只不过在搜索引擎这个领域表现的不是那么的突出,之所以不够突出,原因最主要的是因为搜索引擎还在发展,市场还在进一步加剧竞争,这些暗规则或多或少已经在反映在现在的搜索引擎上了。相信有一天,这些规则会被看到的更清晰,更深入。


搜索引擎暗规则之一

《新约•马太福音》中有这样一个故事,一个国王远行前,交给三个仆人每人一锭银子,吩咐他们:"你们去做生意,等我回来时,再来见我。"国王回来时,第一个仆人说:"主人,你交给我们的一锭银子,我已赚了10锭。"于是国王奖励他10座城邑。第二个仆人报告说:"主人,你给我的一锭银子,我已赚了5锭。 "于是国王例奖励了他5座城邑。第三个仆人报告说:"主人,你给我的一锭银子,我一直包在手巾里存着,我怕丢失,一直没有拿出来。"于是国王命令将第三个仆人的一锭银子也赏给第一个仆人,并且说:"凡是少的,就连他所有的也要夺过来。凡是多的,还要给他,叫他多多益善。"

这就是马太效应。

简单的说,就是让富有者更加富有,让贫穷者更加贫穷。

对于搜索引擎来说,马太效应是一条暗规则。10年的发展期过后,google,yahoo等已经成为市场的绝对主流,利润的分享趋向与这些超大型的搜索引擎,而不是中小型的搜索引擎。

例如,你可以制作一个搜索引擎,流量是google的1/1000(这个数目并不大,每天的独立IP是大约6万,PageView是30万,大约和3,4个 booso.com 的规模大不了多少。),但是你拿到的回报和这个搜索引擎的价值绝对没有google的1/1000(这个大约是6000万美金,或者5亿人民币)。

马太效应还能反应在市场倾向于分化,倾向于使得市场的份额集中在一两个巨头的身上。因为市场对领头羊的投入会拿到比例更高的回报,因此广告/合作等的机会也会遵从马太效应,成为领头羊的东风。

马太效应还表现在当搜索引擎成为领头羊的时候,能够聚合更多的资金人力扩展这个优势,例如启动一系列还表现在当搜索引擎成为领头羊的时候,能够聚合更多的资金人力扩展这个优势,例如启动一系列的其它的业务Mp3,Pic search,Vedio等,巩固和扩大优势。

那么对于中小型的搜索引擎而言,价值在哪里呢?

市场是残酷的,可以预言现在大多数的中小型搜索引擎从经济的角度讲都要灭亡,能够保留下来的一定不会是单纯的搜索引擎,也许是被某一个网站收购成为其附加值,也许转向做企业内部搜索等现在市场还没有显著分化的领域。

2> 我以前曾经写过20/80 法则 重新阐释,这里从新提一下:

20/80法则也叫二八定律,即巴莱多定律。巴莱多定律是19世纪末20世纪初意大利经济学家巴莱多发明的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的,因此又称二八定律。

在搜索引擎的设计上,可以说大多数的搜索引擎在搜索结果上第一页有80%的结果是相同的,不同的只有20%。可是正是这20% make different.

这20%的差别也是不同搜索引擎之间的差距,能够完善这20%将对一个搜索引擎来说是至关重要的。

在另外一方面,对于一个搜索引擎的完善,例如你可以花20%的努力做到80%的效果,而要想提高剩下的20%的效果也许要耗费80%的精力。

一个简单的例子,一个搜索引擎现在还比较初级,也许分词和搜索相关的准确率在80%左右,想要进一步提高,也许要调整40,50个参数,调整很多方面的因子,考虑很多的算法,花了极大的精力后发现只提高了一点,再调整,如此三番,也许很久一段时间后发现有90%了,这个10%就是大的突破,但是要花去的努力要比从0%到80%大的多的多。

搜索引擎各项参数的差距也许只有几个百分点,可是这几个百分点就是真正的差别,就真得创造了胜者和失败者。

从搜索的方面看,20 80 法则有另外的意义,80%的搜索集中在20%的少量关键词上,也就是说有20%的搜索词汇占了80%的总体搜索流量。搜索的词频可以通过搜索引擎的每天的统计得到,在某一些特殊的情况,这些分布可以用来对搜索引擎进行非常好的矫正工作。

3>

车东在Google的“破窗”里提到Spam会传播更多的Spam,这个就是搜索引擎破窗效应的体现。

首先解释一下什么是破窗理论:

"破窗理论"体现的是细节对人的暗示效果,以及细节对整体影响的扩展性

  美国心理学家詹巴斗曾经做过一个"偷车实验 ",将两辆一模一样的轿车分别放在一个环境很好的中产阶级社区和环境比较脏乱的贫民区,结果发现贫民区的车很快被偷走了,而另一辆几天后仍然完好无损;如果将中产阶级社区的那辆车的天窗玻璃打破,几个小时后,那辆车也被偷了。

  后来,在此实验基础上,美国政治学家威尔逊和犯罪学家凯林提出了有名的"破窗理论":如果有人打坏了一栋建筑上的一块玻璃,又没有及时修好,别人就可能受到某些暗示性的纵容,去打碎更多的玻璃。

对于搜索引擎来说,前面chedong的例子已经非常明显,随着更多的人认识到搜索引擎可以获取更多的利益,不法之徒当然回去尝试采用各种作弊手段进行扰乱正常的拍名和搜索结果,如果搜索引擎不即时制止, 这种情况就会泛滥,最好到严重的要影响到用户使用的地步的时候再来处理也就要麻烦的多和面临更多的作弊者。
看这个搜索结果Google 里搜索 天下无贼免费电影下载,你完全可以想像这样的结果是对Spam的一种变相的鼓励。

破窗理论的推论就是注重细节,防微杜渐。一旦有第一个spam出现,即时的制止,那么后面的spam也许就不会那么轻易的去搜索引擎上尝试,因为毕竟敢于做第一(第一个打破窗户)的人还是少数。

看看Baidu和Yahoo,在破窗上封堵的就比google快一些,因此基本上现在能够看到的spam基本上都来自google的结果。

google adsense呢?我以前曾经写过几篇关于fraud click(点击欺骗)的文章,fraud click的破窗随着google去年把修斯顿的一家公司推上了法庭而弥补好了。可是另外一种更严峻的破窗又出现了,直接危机到google adsense的存亡:广告内容作弊。

我看到几乎一半的中国的小网站刊登google adsense的时候都在作弊,这种利用iframe 的嵌套的作弊,然后调用另外的一段js代码从而刊登出与原文完全不相关的广告,例如房屋贷款,信用卡申请等价格较高的adsense,从我第一次注意到大约在2个月前到现在已经泛滥成灾。

破窗,一个小的缺口,几滴渗漏的河水,也许会冲垮一个帝国。

4>

“羊群效应”是指管理学上一些企业的市场行为的一种常见现象。例如一个羊群(集体)是一个很散乱的组织,平时大家在一起盲目地左冲右撞。如果一头羊发现了一片肥沃的绿草地,并在那里吃到了新鲜的青草,后来的羊群就会一哄而上,争抢那里的青草,全然不顾旁边虎视眈眈的狼,或者看不到其它还有更好的青草。

羊群效应的出现一般在一个竞争非常激烈的行业上,而且这个行业上有一个领先者(领头羊)占据了主要的注意力,那么整个羊群就会不断摹仿这个领头羊的一举一动,领头羊到哪里去吃草,其它的羊也去哪里淘金。

搜索引擎这个市场上的竞争加剧的情况下,搜索引擎的巨头之间对对手之间的动作非常的注意,一旦一个搜索引擎出现某一个新的功能,或者进入一个新的领域,众多的搜索引擎都会去尝试这个新的“水草地”是否真的肥美,是否真得有利可图。

在搜索引擎行业上,2002年以来Google确立了领头羊的位置,因此这只羊的一举一动都成了大家摹仿的标本:

1]
2003 Google 收购 blogger.com ,进入blog市场
MSN 2004 年底发布 MSN Space 进入blog市场
Yahoo 2005 发布 Yahoo 360

2]
Google 收购 Picasa
Yahoo 收购 flickr

3]
Yahoo 拥有 Map
Google 发布 Map 服务

4]
几乎同时 Yahoo 推出 video search
Google 也立刻发布了video search

5]
2004 Google desksearch
2004 Msn Desksearch
2005 Baidu desksearch
2005 Yahoo Desksearch

6]
Gmail 提供 1 G 的空间
Yahoo 扩容
Msn 扩容至250M

7]
google 的 adwords 赚了钱
现在已经成为一种标准的模式

这样的例子举不胜据,还有例如API的公开等,那么羊群效应到底是好还是坏呢?

正:羊群效应是一种减少研发和市场调研的一种策略,现在被广泛的应用在各个行业上,也叫做“Copy Strategy(复制原则)”。当一个公司通过调研和开发而投放市场的产品,会被对手轻易的复制而免去前期的研发成本,是加剧竞争的一个来源之一。

反:羊群效应更多带来的是盲目上马的项目和没有经过充分的市场调研而导致的模糊的前景,甚至会分散一个公司的精力。正所谓,没有免费的午餐,把握好羊群效应带来的利弊才能做成正确的决策,选择肥沃的草地。

让我们随着羊群效应来预测一下未来几个“必然”的事件吧:

1] Google 会进入个人门户(Personal Portal)
这个是跟随 Msn Space 和 Yahoo 360 后对blogger和现有的多种服务例如Picasa,gmail等整合在一起,加强这方面的竞争。

2] Msn 会将 Desksearch 集成在新的OS里。(现有的Windows的search不是基于搜索引擎技术的Desksearch)

3] Baidu 和 MSN 都会推出类似 Google Adsense 网页相关广告的业务。

4] Msn 和 Yahoo 会提供 音频和视频blog。

相信还会有很多的事情会发生,羊群效应,正是在培养这样一个趋同,却又激烈竞争的群体。

Posted

淘宝搜索引擎优化与规则

  • 2014年01月25日 15:09
  • 977KB
  • 下载

搜索引擎优化中12个黄金规则

  • 2011年07月21日 16:36
  • 26KB
  • 下载

robot.txt 搜索引擎 蜘蛛爬虫 搜索规则

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问...

而且一定要遵循搜索引擎规则

虽然现在的SEO路越来越难走,但是我们要知道的是搜索引擎在进步,同行业的站长们也在进步,而自己不进步的话,那么其实就是一种倒退,网站跟不上 算法的脚步,跟不上同行业的脚步,那么面临淘汰是迟早的事情。下...

搜索引擎不会告诉你的关于robots的潜规则

在所有meta标签中,专门有一类是指导机器人如何处理抓取后的页面,如何追踪页面上的链接的。描述这种信息的meta标签被称为robotsmeta标签(robots meta tag),它就是本文的主角。...

第84篇ES之php图片转base64位码及调汉王图像识别接口及调搜索引擎接口及删除collection

关键词:更新题库到ES, php图片转base64位码,调汉王图像识别接口, 调搜索引擎接口,删除collection 一、更新题库到ES(四) 1.1 php图片转base64位码 实现了,...

<转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609  近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖...

搜索引擎开源代码(转)

国外开发的相关程序 1、Nutch 官方网站 http://www.nutch.org/ 中文站点 http://www.nutchchina.com/ 最新版本:Nutch ...

Doclist压缩方法简介 [转者注:搜索引擎设计的倒排索引设计中文档列表的存储压缩]

本文转自:  http://www.searchtb.com/2011/07/doclist-compress.html 本文是作者在学习doclist压缩时的一点总结,希望...

十个图片搜索引擎(转)

下面的十款搜索引擎可以帮你实现,以图找图,以图搜图,以图片搜索相似的图片。   一:http://tineye.com/  Tineye是典型的以图找图搜索引擎,输入本地硬盘上的图片或者...
  • lbd2008
  • lbd2008
  • 2012年05月26日 18:04
  • 641
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎暗规则序 [转】
举报原因:
原因补充:

(最多只允许输入30个字)