搜索引擎与spam

原创 2004年10月07日 20:29:00
搜索引擎与spam

亂世用重典,搜索引擎在与spam的長期戰爭中總是處于不利地位(這很容易理解,搜索引擎公司真正考慮搜索結果相關性和排序的只有几個人,而互聯网上整天琢磨怎么對付搜索引擎的有几万几十万webmaster),所以對spam的懲罰很嚴厲,事實上,所有的搜索引擎對它們認定的spam行為,通常只有一种懲罰:永久屏蔽。現在流行的太極鏈、鳳凰鏈這些超鏈群,就存在被當做spam的可能性。國內的搜索引擎注冊還沒有形成市場,但在國外是很發達的產業,每年以200%的速度增長,它們叫SEO,即search engine optimization 從某种角度來說,几乎是spam在推動著搜索引擎的進步,很久很久以前的一天,搜索引擎們為了搜索結果能更准确,為了能把最相關的搜索結果排在前面,發明了meta tag。起初,meta tag是很好用的,那時候,誠實的webmaster們如實的填寫网站摘要,如實的列出跟他的网站最相關的關鍵字,搜索引擎們抓取、索引、檢索這些誠實的meta tag,并作為搜索結果排序的重要依据,然后,是一段相安無事的甜蜜時光。



  歲月迅速流逝,甜蜜時光擋不住資本的力量。“一旦有适當的利潤,資本就大膽起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢踐踏一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險。” 越來越多的网站開始追求收入追求pageview,它們開始欺騙搜索引擎,它們在meta tag中塞進成堆的關鍵字,塞進跟自己的网站內容無關的但是流行的關鍵字。群眾的力量是巨大的,搜索引擎的相關性被破坏了。。。



  搜索引擎們對作弊者開始第一輪反擊,但是無力的,它們的做法是:在排序時更多的依賴网頁正文而不是meta tag。



  作弊者以進為退,開始第二輪攻擊,他們在正文中大量使用与网頁背景相同顏色的關鍵字,在image tags中塞進關鍵字,在网頁代碼加入“看不見的注釋”。



  搜索引擎開始第二輪反擊,它們找到了有效的方法來過濾這些看不見的文字,取得了小小的胜利。



  善良是善良者的墓志銘,卑鄙是卑鄙者的通行證”,作弊者眼見常規武器無效,開始利用搜索引擎的真誠。搜索引擎的spider是互聯网上的謙謙君子,它們訪問任何网站都會自報身份,并且查閱网站的訪問規定,完全按照各网站的規矩來辦事。于是,作弊者精心制作了兩個网站,一個專供网友訪問,一個專供搜索引擎訪問,每當發現訪問請求來自搜索引擎時,就返回專供搜索引擎看的能令搜索引擎滿意的网頁,而正常訪問者只能看到另一個截然不同的网站。這种方法叫做cloaking。這第三輪攻擊,作弊者大胜。



  1998年3月1日,分別在AltaVista、Excite、HotBot、Infoseek、Lycos搜索當時的熱門詞匯“Monica Lewinsky”,各搜索引擎首頁居然分別有50%、30%、30%、10%、50%的搜索結果是spam。由此可見當時作弊者們猖獗至何等程度!



  搜索引擎們,因為它們道德上的弱點,因為有些手段不愿用,所以無法完全辨別cloaking网站,也就無法完全對付作弊者。搜索引擎能做的只是嚴厲的懲罰被發現的spam,以警告作弊者,發展到今天的結果是,所有的搜索引擎對它們認定的spam行為,只有一种懲罰:永久屏蔽。



  但是,嚴厲的懲罰從來只是無能者推卸責任的借口,而不能真正的改善狀況。“一旦有适當的利潤,資本就大膽起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢踐踏一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險。” 作弊者從來就不怕懲罰,當互聯网狂潮來臨,追求pageview的作弊者們更是肆無忌憚。



  無可奈何的搜索引擎,只有去尋找新的相關性排序依据,只有去尋找作弊者不能控制的排序依据,只有去网站以外尋找排序的依据,搜索引擎,真的別無選擇。



  于是,開始出現了超鏈分析,出現了Pagerank。一個网頁,說它自己是什么,它就是什么嗎?物以類聚,如果它說的是真的,那么指向這個网頁的鏈接應該來自具有同類內容的网頁,所以指向這個网頁的鏈接可以被用來驗證這個网頁的相關性。



  誰,最不可能出于貪婪而作弊?誰,最可能如實提供网頁內容?是政府网站,和教育网站。所以,在超鏈分析中,gov和edu网站通常被賦予較高的排名,來自gov和edu的超鏈也有更高的价值。



  但是PageRank也帶來了一些不請自來的錯誤排序因素:新站不如舊站,小站不如大站,專業站不如通俗站。一個新网站,一個小网站,一個專業网站,它的內容再好,因為不可能迅速得到大量的超鏈,所以無法得到合适的排名,即使它的內容是無与倫比的。而一個歷史悠久的老网站、大网站、通俗网站,即使它已久不更新,或者內容遠不如某些小网站,卻可以獲得很高的排名。



  當超鏈分析剛出來時,SEO界一片悲觀論調,認為這是無法作弊的,SEO業完蛋了(就象近期各搜索引擎紛紛收費,SEO業更覺得自己前景慘淡,其實雖然搜索引擎排名市場的大頭要給搜索引擎們,但SEO還是有錢賺的,畢竟,只有勞動模范有下崗的可能,從來沒听說騙子會失業的),但是,道高一尺魔高一丈,很快SEO們發現了對付超鏈分析的方法:你不是喜歡鏈接么,好,我就做大量的网站,准備大量的鏈接,哪個客戶出錢,我所有的网頁都給它一個鏈接。這种SEO方法被稱為link firm。這种方法剛出現時還算有效,不過很快就不行了,因為一個网站是否有大量來自內容不相干网頁的鏈接,或者一個不是搜索引擎的网站給出大量不相干的鏈接還不難判斷。而每當發現一個link firm,那些使用了該link firm的网站就全部死翹翹。我在wmw的論壇上看過一個家伙的帖子,說他的网站被封了,但他覺得自己很干淨,沒有做spam,所以主動去問Google封他网站的原因,原來僅僅是因為他用了一個link firm,真是可怜。



  一种搜索結果的排序算法,如果更多的是基于概念、主題、基于网頁內容的質量,而不是网絡上互相鏈來鏈去的超鏈的重要性,那么搜索結果的相關性在本質上會更好。



  只是,讓計算机學會理解和評价网頁內容嗎?好像還是很遙遠的事情;花大量的人力一個個网頁評估么?這肯定是虧本的商業行為,只有靠志愿者。ODP庶几近之,但也只能點擊,用關鍵字搜索時還是無法跟超鏈分析的結果相比。

SPAM搜索引擎垃圾技术

在搜索引擎优化相关的文章中中经常遇到“SPAM”一词,SPAM通常用来指垃圾邮件,不过在搜索引擎营销中所说的SPAM是专门针对那些欺骗搜索引擎的信息。搜索引擎垃圾技术是利用不道德的技巧去提高自己搜索引...
  • parrylau
  • parrylau
  • 2007年12月15日 20:51
  • 372

Python,Spam的有趣由来

 看到Dreaming in code一书中提到这个词,才想起gmail中的字段的确切含义-_-!顺面在网上查了一下:官方版本说,它是“Specially Processed Assorted Mea...
  • vagrxie
  • vagrxie
  • 2009年04月19日 23:51
  • 3034

SAP SPAM SAINT

After completing this unit, you will be able to: List the differences in principle between Support ...
  • huangqingping
  • huangqingping
  • 2013年05月27日 12:46
  • 933

关于4. 3 DESIGN: SPAM 审核问题的解决方法

关于4. 3 DESIGN: SPAM 审核问题的解决方法 Design - 4.3 Your app duplicates the content and functionality of a...
  • angel78952
  • angel78952
  • 2017年07月18日 11:18
  • 1682

邮件分类和过滤-朴素贝叶斯NB经典案例

关于朴素贝叶斯的理论,已在机器学习之朴素贝叶斯分类器中进行了详细说明,但是没有经历coding亲自见证效果,还是无法真正掌握。本篇旨在理论的基础上灵活运用朴素贝叶斯进行分类。再来回顾下朴素贝叶斯分类器...
  • m0epNwstYk4
  • m0epNwstYk4
  • 2018年01月03日 00:00
  • 245

搜索引擎的设计与实现(一)从零开始?

毕业狗一枚,即将步入职场。仅以此系列,记录毕业设计中遇到的问题和解决的具体思路,重点不是完整的代码,而是得到完整代码的思考过程。所以只会贴出部分代码,勿怪。专业是电子商务,除了万恶的经管大类课程,技术...
  • u010386006
  • u010386006
  • 2015年06月19日 16:26
  • 1535

为什么要用全文搜索引擎:全文搜索引擎 VS 数据库管理系统

正文一:Full Text Search Engines vs. DBMS  发表于2009年 正文二:Elasticsearch — A High-Performance Full-Text Se...
  • u013034889
  • u013034889
  • 2017年09月26日 15:11
  • 938

搜索引擎与网络爬虫简述

一、搜索引擎          搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,将处理后的信息展示给用户。 垂直搜索引擎则是针对某一行业的专业所搜引擎,是...
  • Daybreak1209
  • Daybreak1209
  • 2016年09月03日 20:51
  • 1408

SPAM算法的学习笔记

SPAM算法 1、       原始序列: Cid 活动序列 C001 ({a},{c,d},{a,b},{c}) C002...
  • Kite_crazy
  • Kite_crazy
  • 2014年10月02日 10:10
  • 1252

《Handling Cold-Start Problem in Review Spam Detection by Jointly Embedding Texts and Behaviors》阅读笔记

《Handling Cold-Start Problem in Review Spam Detection by Jointly Embedding Texts and Behaviors》阅读笔记摘...
  • feitianlzk
  • feitianlzk
  • 2017年09月06日 21:35
  • 82
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎与spam
举报原因:
原因补充:

(最多只允许输入30个字)