如果我的判断没错的话,它们使用的软件应该是HADOOP,算法是MAP/REDUCE,如果这些
条件一样,影响到计算效率的还有三个因素:
1.CPU的数量和CPU的处理能力
CPU的数量可以用一个例子来说明:挖沙!如果阿里带领1000个民工在河里挖沙,而旁边的雅 虎只有200个民工,那么结果可想而知。后者相当于一个成年人和一个儿童比体力,无论如何 ,一个儿童的体力是比不上成人的。
2.网络带宽
这涉及到分布计算和集中计算的根本不同,网络!现在我们主要的计算模式仍然是集中计算, 集中计算的特点是数据的存储和计算混合在一台计算机上进行。分布计算的特点是把存储和计 算分开,这样就需要一批计算机参与,每台计算机成为一个节点,或者存储,或者计算,或者 二者兼有。网络是将它们连接起来的纽带。假设数据存储在E节点,那么数据计算可能发生在D 节点,也可以是W节点。为了在单位时候能够传输更多的数据,网络带宽就显得非常重要了。 如果把网络比喻成水管,那么带宽就是这个水管的粗细,越粗的水管流量会越大。据说阿里的 机房带宽都是万兆级,这决对是目前顶级的配置了。
3.数据存储的位置
换句话说,就是100TB的数据放在哪里。目前的存储介质有三种:内存、固态硬盘、机械硬盘 。因为这些数据无论放在哪里,都要从存储介质里读出来,再通过网络传到其它节点上计算。 这个"读"本身就是一个耗时的过程。根据它们自身的特性,内存远远快过固态硬盘,固态硬盘 又超过机械硬盘。
综上所述,基本条件相同下的竞赛才有可比性,如果玩田忌赛马,偷换概念的比赛,即使赢了 ,也是胜之不武,没有什么可夸耀的。
1.CPU的数量和CPU的处理能力
CPU的数量可以用一个例子来说明:挖沙!如果阿里带领1000个民工在河里挖沙,而旁边的雅 虎只有200个民工,那么结果可想而知。后者相当于一个成年人和一个儿童比体力,无论如何 ,一个儿童的体力是比不上成人的。
2.网络带宽
这涉及到分布计算和集中计算的根本不同,网络!现在我们主要的计算模式仍然是集中计算, 集中计算的特点是数据的存储和计算混合在一台计算机上进行。分布计算的特点是把存储和计 算分开,这样就需要一批计算机参与,每台计算机成为一个节点,或者存储,或者计算,或者 二者兼有。网络是将它们连接起来的纽带。假设数据存储在E节点,那么数据计算可能发生在D 节点,也可以是W节点。为了在单位时候能够传输更多的数据,网络带宽就显得非常重要了。 如果把网络比喻成水管,那么带宽就是这个水管的粗细,越粗的水管流量会越大。据说阿里的 机房带宽都是万兆级,这决对是目前顶级的配置了。
3.数据存储的位置
换句话说,就是100TB的数据放在哪里。目前的存储介质有三种:内存、固态硬盘、机械硬盘 。因为这些数据无论放在哪里,都要从存储介质里读出来,再通过网络传到其它节点上计算。 这个"读"本身就是一个耗时的过程。根据它们自身的特性,内存远远快过固态硬盘,固态硬盘 又超过机械硬盘。
综上所述,基本条件相同下的竞赛才有可比性,如果玩田忌赛马,偷换概念的比赛,即使赢了 ,也是胜之不武,没有什么可夸耀的。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/30131349/viewspace-1457067/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/30131349/viewspace-1457067/