GOOGLE被封锁的技术 分析 【 让Google和我们都死的瞑目 】

转载 2006年06月09日 23:20:00

allyesno:本文内容并没有经过验证,仅作参考

这是一整套相当完善的技术。是一个讨论他的价值仅在于对其双向过滤技术的探讨。因此本文不讨论如何破网,只是对其进行探讨以及描述。


我们先从几个试验开始:
首先是用户,在不加载任何代理的情况下,搜索敏感关键字。结果可想而知。Google的搜索网页连显示都没有显示就直接跳掉了。


用户不死心。加载一道国外普通代理如何?结果是刚显示一个Google的LOGO就读不下去了,也是跳掉了。
这是为什么呢?第一个例子中,用户碰上的是对于发出数据的过滤,而第二次用户碰到的则是对返回数据的过滤,也就是双向过滤。这套过滤系统建立在国家的出口网关上。他的重点是对于返回数据包的过滤。


接下来的试验可以让我们发现一些更为有趣的问题:

加载国内普通代理,也许在返回的搜索网页上有包含某些某些关键字的时候不会跳掉。而加载看起来更安全的国外普通代理却更容易跳掉。这是为什么呢?


好吧,解答这个问题之前,我们可以再做一个试验。我们可以将Google的搜索结果页面上传到一个国外的主页空间上,直接去浏览如何?没问题。但明显可以感受到一定的延迟。用国外代理呢?跳掉了。在使用Google搜索时都会感受到的一定的页面读取延迟,当然我向你保证,这不是Google服务器的错。而是过滤设备在工作的缘故。


下面可以推出来的结论就是,这套系统只对国外数据包进行过滤,原因很自然,因为国内服务器,比方主页提供商的内容总是相当容易控制的。但他是如何知道哪个数据包才是Google的呢?这很容易,
下面是google申请的ip地址段:

216.239.32.0 - 216.239.63.255  

Google Inc.  2400 E. Bayshore Parkway Mountain View CA 94043  US  

  --------------------------------------------------------------------------------

     Google Inc.   arin-contact@google.com   +1-650-318-0200    


呵,接下来的事情就很容易了。其实只要对来自这个IP段的数据包,简单的policy based forwarding就可以了。因此他的/s数据处理量并没有我们想像的那样大,换句话说,他们并没有强大到拥有我们并不知晓的设备的程度。事实上,大部分对于网络访问依然在国内,而对国外的访问中,网吧的访问,更有安装在网吧主机上的过滤系统进行了过滤,从而很大程度上减轻了对于国外网段访问的压力。过滤设备的处理能力依然有限,不然我们在目前的搜索过程中就不会感觉到延迟了,当然如果增加设备,对处理能力进行增强,或者推广到省网关,市网关则另当别论。


那么我们如何解释把Google的搜索页面放到国外服务器上,却依然会产生读取延迟的问题呢?(也就是被过滤检查过了。)也许是这样一个公式:google(过滤系统抓取网页上的某个特定的只有Google才有的特殊标示,比方“Google搜索”)+来自国外的地址=触发过滤机制。这一层过滤,与发出的数据包过滤类似,属于简单的过滤,对系统负载并不大。而这个机制是对于所有国外网段的,这样就有效的避免了封杀不彻底的问题。也就避免了在第一次封杀过程中产生使用IP进行访问的漏网之鱼的问题。也就是说即使你在国外另一个网段建立一个Google服务器的话。如果你不是动态IP+SSL的组合,依然可能被封杀,如果是这样的组合,你的服务器也会不堪重负。(极端的想,即使动态IP+SSL,依然可能被域名劫持)


事实上,在近一段时间的搜索中,我们可以发现。过滤似乎比以前少了,某些以前网页中因为不幸的包括敏感关键字而跳掉的网页,不再跳掉了。这说明了这套系统已经调试完毕,进入了运行期。可以更替对某些关键字的屏蔽,更可以在搜索效果与过滤效能上做一定程度的平衡了。


我们还会发现一个问题,那就是Google的搜索结果,变得越来越差,而其中我们可以发现,只是国内网页的搜索结果越来越差,而且还会越来越少。这是为什么呢?呵呵,注意观察某些会记录访问者IP的网页。我们就会发现其中的秘密。“crawler.googlebot.com”,是的,正是googlebot的机器人。googlebot机器人的某些特征被抓到后,就可以对其进行有限量的抓取或者不让其进行抓取,例如只对几个官方网站进行更新,其它的网页信息都抓不回去。进一步的去想,利用这个机器人甚至还可以发现潜藏在国内网站内部的不良信息

GOOGLE被封锁的技术分析【让Google和我们都死的瞑目】--转

这是一整套相当完善的技术。是一个讨论他的价值仅在于对其双向过滤技术的探讨。因此本文不讨论如何破网,只是对其进行探讨以及描述。我们先从几个试验开始:首先是用户,在不加载任何代理的情况下,搜索敏感关键字。...
  • Explorering
  • Explorering
  • 2006年06月10日 16:15
  • 3366

让Google和我们都死的瞑目_GOOGLE被封锁的技术分析

document.title="GOOGLE被封锁的技术 分析 【 让Google和我们都死的瞑目 】 - "+document.title这是一整套相当完善的技术。是一个讨论他的价值仅在于对其双向...
  • DaNmarner
  • DaNmarner
  • 2006年06月10日 11:19
  • 1114

解决Google被屏蔽的办法

解决Google被屏蔽的办法
  • yupong
  • yupong
  • 2017年01月10日 12:52
  • 969

Google Play 封杀第三方支付

摘要:北京时间2012年8月2日,Google Android Play应用商店管理团队发布公告称,该公司将对“开发人员应用政策”作出调整,调整的内容包括支付政策、应用命名、隐私安全等。从现在开始,开...
  • sunboy_2050
  • sunboy_2050
  • 2012年12月18日 19:09
  • 10418

Google的技术构架 (精心整理版)

网上看到的一篇关于GOOGLE技术架构的详细介绍。                 了解云计算标杆Google的技术构架      一、前言        计算无疑是今年IT 技术界最热点的关键词...
  • atlim
  • atlim
  • 2012年05月04日 13:43
  • 3625

Google Analytics(分析)如何计算访问次数

“访问”和“会话”这两个术语的意思相似,有时可以互换使用。 此信息仅适用于传统Google Analytics(分析)JavaScript (ga.js)。查看您使用的是传统Google A...
  • shenyue304
  • shenyue304
  • 2014年04月29日 15:15
  • 4708

谷歌分析大数据怎么它就这么快?

谷歌分析存储了大量统计数据,包括来自世界各地的互联网网站统计数据。检索功能可以从如此巨量的数据中快速返回要求谷歌具备特殊的解决方案,必须要满足在任何时候有更多数据需要存储时能很容易地扩展。   ...
  • miller_lover
  • miller_lover
  • 2014年11月16日 18:50
  • 1519

怎样让百度、Google搜到你的博客(强烈推荐)

        大家在精心做好了自己的博客之后肯定都想让大家来看一看你的小家,踩踩你的小院吧?在当今社会,酒香也怕巷子深,更何况我们区区草民不为人知的博客?那么,怎样让更多的人都知道你的博客呢?这肯定...
  • Senton
  • Senton
  • 2007年03月28日 15:59
  • 2109

Google 技术论文集

Below is a partial list of papers written by people at Google, organized by category. Algorithms Ach...
  • shunkai_fu
  • shunkai_fu
  • 2007年01月01日 10:18
  • 2708

Google趋势(Trends)有趣的关键词

 原出处:Google趋势(Trends)有趣的关键词Google的每个产品都值得我们期待,并且每个产品都没有令我们失望。第一时间对Google趋势试用了一把,分别搜索了“中国”,“China”,“C...
  • raying
  • raying
  • 2006年08月03日 21:36
  • 1086
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:GOOGLE被封锁的技术 分析 【 让Google和我们都死的瞑目 】
举报原因:
原因补充:

(最多只允许输入30个字)