【转载】搜索引擎如何对付“暗网”

原创 2010年05月05日 10:22:00

 【转载】搜索引擎如何对付“暗网”
  
        网海无边,回头是岸。
  
  摆在搜索引擎面前的难题很多,剪不断,理还乱,但有一个怎么绕也绕不开——暗网(hidden web)。互联网上每天都在诞生无穷无尽的新信息,这些信息存在的方式也无穷无尽——文字、声音、图像、交互数据,或者别的。
  
  面对信息存在状态的多元化,内容的海量化,人类很焦虑,总想探求冰山底下不为人知的世界,这便是技术的伟大之处。
  
  近来,由于百度“阿拉丁”的热炒,“暗网”问题又一次被大家关注。业内人士也由此陷入一个误区,实际上,早在1994年,Jill Ellsworth就开始提到“invisible Web”这个词,“暗网”自搜索引擎诞生的那一天起,就一直是个问题,恐怕也终将得不到100%的解决。
  
  “暗网”有多暗?
  
  既然是“暗网”,到底它有多大的容量,很难有一个明确的数字。有人说,现在可搜索的网页占到了37%;有人说有100亿个不重复的表单;还有人说是浅层www资源的500倍。争论这个问题意义不大,对比浅层www(即Surface Web,静态页面、超链接、文件),让我们来看看BrightPlanet公司之前发布的一个技术白皮书(《The Deep Web-Surfacing the Hidden Value》)的结论:
  
  1、Deep Web包含7500TB的信息,而Surface Web包含的信息容量只有19TB。
  2、Deep Web包含5500亿独立文档,想对应的Surface Web只包含10亿个。
  3、现有的Deep Web站点估计超过100000个。
  4、60个最大Deep Web站点就已包含750TB信息,超过Surface Web所包含信息的40倍。
  5、平均看,Deep Web站点的月访问量比Surface Web站点高出50%,并且与Surface Web站点相比有更多的链接。可是那些典型的大型Deep Web站点在互联网搜索领域却不知名。
  6、Deep Web是互联网新信息增长的最大来源。
  7、Deep Web站点在信息内容范围上比一般Surface Web站点更专更深。
  8、Deep Web包含的有效高质内容总量至少是Surface Web的1000到2000倍。
  9、超过一半的Deep Web内容都保存在专业领域的数据库中。
  10、95%的Deep Web信息都是面向公共访问的,而不是需要付费或者订阅的。
  
  简单的说,“暗网”比你想象中的还要庞大,还要未知,但它们的应用却比你想象中的要多。因此,我们可以得到一个结论——尽管网海无边,但探索“暗网”对人类更从容地把握信息是极有意义的。
  
  目前主流的应对策略
  
  之前我曾留意到陈佼的一篇针对“阿拉丁”的文章(深入解析百度“阿拉丁”平台),其中提到了搜索引擎对“暗网”的应对策略。实际上,针对暗网的策略非常复杂,简直可以发展多个交叉学科来研究,举个简单的例子,微软亚洲研究院一直在研究关于声音信息的处理和检索,这项研究耗时多年,一直未有突破性进展,即便如此,它也只是对付“暗网”的一小部分。
  
  饭要一口一口的吃。在我看来,当前要解决的所谓“暗网”,主要是针对的是Dynamic content(动态内容),这也是各大搜索引擎现在工作的重中之重。对此,主要有两大策略——主动策略和被动策略。
  
  这就好比有一座未知的宝藏,现在想要得到它,一种方法是拿着藏宝图,将其找到,发掘出来,这就是所谓“主动”;另一种方法是让宝藏“自己显露出来”,等待开发。
  
  主动策略:优化数据分析,优化算法,从堡垒的外部攻破。
  
  Google的Jayant Madhavan在VLDB 2008会议上作了题为“Google’s Deep-Web Crawl”的报告,其中详细阐述了Google的一些策略,其核心就是信息模板(informative templates)。其实理解起来很简单,可以叫做“混水摸鱼”,多摸几次,反复总结,就能最大限度接近于知道摸到的是鱼还是石块。
  
  2008奥运期间,百度也曾经针对大量相关关键词进行处理优化,整合各种状态的内容信息,取得了很好的效果。
  
  被动策略:让网站方参与到“暗网”的显现中来,主动“洗白”。
  
  这是一种迂回的策略。陈佼在博文中提到的One box、Subscribed Link、Search Monkey等都属于这种,它是通过开放的API允许用户主动将结构化的数据提交上来。百度公布的搜索开放平台(http://open.baidu.com )也是其中的先驱之一。
  
  这种策略很讨巧,但它不仅是个单纯的技术问题,更是个博弈问题。据我所知,韩国的很多互联网公司都拒绝google的爬虫,很多报纸网站也对google的抓取深恶痛绝,并别提主动协助了。
  
  对比解析搜索巨头应对“暗网”的策略
  
        在做对比解析之前,有一点我想表达:在应对“暗网”方面,世界各地的搜索引擎几乎是同时起步的,或许走的路子有一些差异,但殊途同归,这一点尤其值得肯定。
  
        Google:霸道而独断
  
        如果你仔细解读一下Google’s Deep-Web Crawl报告就会明白,Google依然以其引以为傲的算法来针对“暗网”,已经出来的产品如onebox、Subscribed Links,乃至Google base等。
  
        Google很懂技术,但树大招风,如果不懂得平衡各方利益,天才容易寡助。比如Google base这个产品,架子很大,但生态链太短,目前的发展看来并不乐观。我倒是建议Google考虑收购一下现在正火的Wolfram Alpha,从本质上来说,这也是一个对付“暗网”的产品。
  
        Yahoo:简单的事情复杂化
        Search Monkey是Yahoo对付“暗网”的拳头,很开放,很自由,很有颠覆感,但与Google习惯用技术眼光来解决问题一样,Yahoo要面对的是无序和混乱的可能。
  
        之前与业内朋友交流,大家有一个共识,Yahoo是一家非常强悍的公司,拥有无数天才,但它常常将简单的问题复杂化,造成失控。在Search Monkey中,Yahoo开放了图片、视频、游戏等大量内容,展现的权限都交给用户决定,也是基于这一思维。
  
        百度:聪明而谨慎
  
        百度的搜索开放平台很有意思,它有3个非常突出的特点:
  
        其一,开放却又限制。思维上是开放的,面向的也是所有的网站,但在数据内容和网站的资质上,它又有严格的审核,以保证搜索体验。
  
        在哲学中有一句话说:自由不是绝对的,而是相对的。百度的中庸在搜索开放平台上反映得淋漓尽致。
  
        其二,注重利益的均衡。和Google、Yahoo不同,百度的策略注重生态平衡——搜索引擎、网站、用户。它的机制是:百度为用户提供更好的搜索体验,把控资源,让更优质的网站内容得到展现,而网站从中攫取品牌价值和流量的提升。
  
        其三,谨慎对待一切。我和一些站长就搜索开放平台进行过交流,在提交审核的数据中,百度偏好“确定性信息”和“数字性信息”,而对一些模棱两可、非确定性文字信息几乎都拒之门外,从中可以看出百度搜索开放平台的谨慎。
  
        三大巨头都是将搜索引擎从“可读”变为“可写”,但不同的思维方式决定了不同的处理方式。不管如何,在应对“暗网”的战争中,信息的使用者才是最大的赢家。
  
        最后送一句话给致力于突破“暗网”的搜索业界朋友们:人类若能妥善地搜寻资料,实在已经改变世界了。与大家共勉。

如何使用TorBrowse上暗网

第一步:下载Tor浏览器,http://soft.downkr.com/soft/torbrowser.rar 第二部:打开并安装(需要选择语言) 第三部:进行配置 1、选择配置 2、选否     ...
  • w1085541827
  • w1085541827
  • 2017年05月19日 20:23
  • 9842

Tor匿名上网&进入暗网

Tor匿名上网&进入暗网 准备工作 下载必要的软件 下载地址Torproject。 进去第一眼就会看到Download Tor点击下载自己想要的版本,但是需要科学上网,记得语言选择简...
  • oouxx
  • oouxx
  • 2017年12月20日 20:16
  • 644

深网与暗网初学者指南

访问深网的工具: FreeLunch(免费午餐) 使用这个工具可以访问到经济学、人口学和金融方面的数据,普通搜索引擎的爬虫无法爬到的内容。 Shodan ...
  • nowadaysall
  • nowadaysall
  • 2016年09月10日 00:02
  • 7725

暗网,一个比你想象中恐怖100倍的互联网世界

转载声明:http://m.admin5.com/article/20151004/625784.shtml 这是一篇转载于网上多年的文章,原作者已无迹可寻。帖子里的自述就像小说一样...
  • yilovexing
  • yilovexing
  • 2016年08月15日 10:12
  • 13046

出于好奇,我去暗网里瞧了瞧 —— 你就别去了

赤裸裸的欲望躲在信息背后支撑起每一个页面,它像一个黑洞,把精力与金钱吸入,吞吐出的,是极度满足后的虚妄。生活不也正是如此吗? 暗网已经不再是个新鲜的词汇了,但大多数人只对它有个印象 —— 常人无法进入...
  • Marvel__Dead
  • Marvel__Dead
  • 2017年11月10日 14:26
  • 841

暗网购物指南

在国内估计没什么用了,指不定就被和谐了,说不定以后离开天朝了,说不定以后用的上呢!   与传统互联网不同,暗网一直是个神秘的存在!接下来的文章中,小编将为您揭开暗网Trade Route市场...
  • Ni_dhogg
  • Ni_dhogg
  • 2017年05月05日 19:25
  • 1475

暗网----网络上不为人知的深处

公布一些暗网网址 需要配合洋葱工具才能访问 Name || Original URL || Fake URL 1 Hour Laundry: http://ppgnpc24t2qprspq....
  • a8903289
  • a8903289
  • 2015年01月18日 23:43
  • 9328

网络数据库泄露容量再次攀升,41GB数据文件出现在暗网

近日,据国外媒体报道,网监控公司 4iQ 发现暗网中出现了高达 41 GB 的数据文件,其中包含 14 亿份以明文形式存储的账号邮箱和密码等登录凭证。本次泄露事件堪称史上信息量最大的数据库在线曝光。 ...
  • Trustauth
  • Trustauth
  • 2017年12月15日 10:54
  • 70

暗网信息抓取

1.什么是暗网   广义地讲,任何不能通过一次(或多次)HTTP GET请求直接下载的Web页面,我们都可以认为其处于“暗网”中。不能直接通过HTTP GET请求下载这些Web页面的原因是多方面的,...
  • regnjka
  • regnjka
  • 2014年06月17日 09:34
  • 513

网页挂马及暗链检测

什么是网页挂马 网页挂马是指恶意攻击者攻击WEB网站后,在网页中嵌入一段代码或脚本,用于自动下载带有特定目的木马程序,而恶意攻击者实施恶意代码或脚本植入的行为通常称为“挂马”。 什么是SEO暗...
  • A11085013
  • A11085013
  • 2013年06月09日 15:16
  • 3105
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:【转载】搜索引擎如何对付“暗网”
举报原因:
原因补充:

(最多只允许输入30个字)