现在的计算机里,CPU和硬盘(机械硬盘)的差距越来越大。CPU的性能每年都在提升,而硬盘的IO性能基本是以蜗牛的速度在前进。这种情况放在大数据计算环境里,在一个计算过程中,导致CPU大部分时间被空耗了。
以Laxcus的随机排序为例,10G的数据量,10台计算机,每台分配1G数据,结果是:80%的时间发生在硬盘IO阶段,8%的时间进行网络传输,8%时间产生随机数据和执行排序。
以Laxcus的随机排序为例,10G的数据量,10台计算机,每台分配1G数据,结果是:80%的时间发生在硬盘IO阶段,8%的时间进行网络传输,8%时间产生随机数据和执行排序。
改善上述问题的办法是部署更多的计算机。相同数据量的情况下,每台计算机可以分配更少的数据,从而减少硬盘IO时间,来提高总体的计算效率。同样是上面这个例子,在10G数据量不变的情况下,计算机数量改为20台,每台分配500M的数据,计算时间就缩短了一半。
附操作图示,分别是10G和20G的分布计算排序