GOOGLE被封锁的技术 分析 【 让Google和我们都死的瞑目 】

转载 2006年06月09日 23:20:00

allyesno:本文内容并没有经过验证,仅作参考

这是一整套相当完善的技术。是一个讨论他的价值仅在于对其双向过滤技术的探讨。因此本文不讨论如何破网,只是对其进行探讨以及描述。


我们先从几个试验开始:
首先是用户,在不加载任何代理的情况下,搜索敏感关键字。结果可想而知。Google的搜索网页连显示都没有显示就直接跳掉了。


用户不死心。加载一道国外普通代理如何?结果是刚显示一个Google的LOGO就读不下去了,也是跳掉了。
这是为什么呢?第一个例子中,用户碰上的是对于发出数据的过滤,而第二次用户碰到的则是对返回数据的过滤,也就是双向过滤。这套过滤系统建立在国家的出口网关上。他的重点是对于返回数据包的过滤。


接下来的试验可以让我们发现一些更为有趣的问题:

加载国内普通代理,也许在返回的搜索网页上有包含某些某些关键字的时候不会跳掉。而加载看起来更安全的国外普通代理却更容易跳掉。这是为什么呢?


好吧,解答这个问题之前,我们可以再做一个试验。我们可以将Google的搜索结果页面上传到一个国外的主页空间上,直接去浏览如何?没问题。但明显可以感受到一定的延迟。用国外代理呢?跳掉了。在使用Google搜索时都会感受到的一定的页面读取延迟,当然我向你保证,这不是Google服务器的错。而是过滤设备在工作的缘故。


下面可以推出来的结论就是,这套系统只对国外数据包进行过滤,原因很自然,因为国内服务器,比方主页提供商的内容总是相当容易控制的。但他是如何知道哪个数据包才是Google的呢?这很容易,
下面是google申请的ip地址段:

216.239.32.0 - 216.239.63.255  

Google Inc.  2400 E. Bayshore Parkway Mountain View CA 94043  US  

  --------------------------------------------------------------------------------

     Google Inc.   arin-contact@google.com   +1-650-318-0200    


呵,接下来的事情就很容易了。其实只要对来自这个IP段的数据包,简单的policy based forwarding就可以了。因此他的/s数据处理量并没有我们想像的那样大,换句话说,他们并没有强大到拥有我们并不知晓的设备的程度。事实上,大部分对于网络访问依然在国内,而对国外的访问中,网吧的访问,更有安装在网吧主机上的过滤系统进行了过滤,从而很大程度上减轻了对于国外网段访问的压力。过滤设备的处理能力依然有限,不然我们在目前的搜索过程中就不会感觉到延迟了,当然如果增加设备,对处理能力进行增强,或者推广到省网关,市网关则另当别论。


那么我们如何解释把Google的搜索页面放到国外服务器上,却依然会产生读取延迟的问题呢?(也就是被过滤检查过了。)也许是这样一个公式:google(过滤系统抓取网页上的某个特定的只有Google才有的特殊标示,比方“Google搜索”)+来自国外的地址=触发过滤机制。这一层过滤,与发出的数据包过滤类似,属于简单的过滤,对系统负载并不大。而这个机制是对于所有国外网段的,这样就有效的避免了封杀不彻底的问题。也就避免了在第一次封杀过程中产生使用IP进行访问的漏网之鱼的问题。也就是说即使你在国外另一个网段建立一个Google服务器的话。如果你不是动态IP+SSL的组合,依然可能被封杀,如果是这样的组合,你的服务器也会不堪重负。(极端的想,即使动态IP+SSL,依然可能被域名劫持)


事实上,在近一段时间的搜索中,我们可以发现。过滤似乎比以前少了,某些以前网页中因为不幸的包括敏感关键字而跳掉的网页,不再跳掉了。这说明了这套系统已经调试完毕,进入了运行期。可以更替对某些关键字的屏蔽,更可以在搜索效果与过滤效能上做一定程度的平衡了。


我们还会发现一个问题,那就是Google的搜索结果,变得越来越差,而其中我们可以发现,只是国内网页的搜索结果越来越差,而且还会越来越少。这是为什么呢?呵呵,注意观察某些会记录访问者IP的网页。我们就会发现其中的秘密。“crawler.googlebot.com”,是的,正是googlebot的机器人。googlebot机器人的某些特征被抓到后,就可以对其进行有限量的抓取或者不让其进行抓取,例如只对几个官方网站进行更新,其它的网页信息都抓不回去。进一步的去想,利用这个机器人甚至还可以发现潜藏在国内网站内部的不良信息

相关文章推荐

利用google突破各种封锁来下载你要的东西

原文地址:利用google突破各种封锁来下载你要的东西 作者:东方蜘蛛 首先打开Google,在关键词输入框中输入"index of/"inurl:lib(双引号为英文状态下...

仿Baidu,Google查询分页技术实现分析

分页 (pagination) 一种自动分页机制,可以将移动 Web 窗体中的内容分割成一组组较小的页进行呈现,以适合于特定的设备。该机制还呈现可用于浏览到其他页的用户界面元素.在整个的web开发应用...
  • mm2223
  • mm2223
  • 2011年11月03日 10:35
  • 300

Google Test(GTest)使用方法和源码解析——Listener技术分析和应用

本文介绍了GTest框架的Listener技术。

阿里云、Amazon、Google云数据库方案架构与技术分析

「一切都会运行在云端」。 现在越来越多的业务从自己维护基础设施转移到公有(或者私有)云上, 带来的好处也是无需赘述的,极大降低了 IaaS 层的运维成本,对于数据库层面来说的,以往需要很强的 D...

Google Test(GTest)使用方法和源码解析——参数自动填充技术分析和应用

本文介绍了GTest参数自动填充技术分析和应用。

仿Baidu,Google查询分页技术实现分析之一

仿Baidu,Google查询分页技术实现分析分页 (pagination) 一种自动分页机制,可以将移动 Web 窗体中的内容分割成一组组较小的页进行呈现,以适合于特定的设备。该机制还呈现可用于浏览...

Google Test(GTest)使用方法和源码解析——死亡测试技术分析和应用

本文介绍了GTest的死亡测试技术的实现。

Google Test(GTest)使用方法和源码解析——预处理技术分析和应用

本文介绍了GTest的各种预处理技术

Google Test(GTest)使用方法和源码解析——自定义输出技术的分析和应用

本文介绍了GTest框架的自定义输出技术。

Google VP8 Code 首次深入技术分析 1

The first in-depth technical analysis of VP8 首次深入技术分析 Back in my original post about Internet ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:GOOGLE被封锁的技术 分析 【 让Google和我们都死的瞑目 】
举报原因:
原因补充:

(最多只允许输入30个字)