2015年12月_瓶子Annette

12月 11月 07月

原创 Spark的天然优势--内存计算

所有的计算都是基于内存的，为什么Spark说是基于内存进行计算的呢？在这里我有两点理解： 1.Spark支持将RDD数据集Persist或者Cache到内存里去，如果将频繁使用的数据集缓存到内存中，则可以大大减少IO、网络传输以及重新计算的代价，尤其是对于Shuffle后的数据集进行缓存，可显著提高应用运行速度。 2.基于pipeline的计算执行策略,此策略可以实现对内存中数据的重用最大化，减

2015-12-10 16:56:52 3965

tpc-h说明文档

包含TPC-H基准的数据模型、负载设计和matric等详细信息

2017-07-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人