没人确切知道搜索巨人有多少台服务器,但以小可见大:一次简简单单的搜索查询就要动用到700到1000台服务器。根据现有的资料,Google有36个数据中心,每个数据中心有150个柜式服务器,每个柜含40台服务器,这样计算起来Google拥有的服务器超过20万台,这个数字每天还在增加。在本周三的Google I/O会议上,Jeffrey Dean略微透露一点Google庞大数据中心的内部情况,在Dean眼里,1,800台的服务器集群根本是小菜一碟:
Dean说,更多的硬件并不意味着可靠性更高,你还需要在软件层次上提高可靠性。“如果你运行1万台机器,肯定每天都会有问题发生。”
Dean用了一个计算机集群来说明硬件故障频率,他说,“在一个集群上线的第一年,会有1000台独立的机器发生故障,数以千计的硬盘故障,一个分布式电力单元出问题,500到1,000台机器下线6小时;20个柜式服务器会出现问题;每次会导致40到80台机器从网络中消失;5个柜会变得不可靠,通过其中的一半信息包会丢失;集群需要更换一次连接的电线,每次会影响5%的机器停止工作两天。”
Dean还称,一个集群有50%的几率过热,不到5分钟内整个服务器瘫痪,需要花1到2天时间去恢复。