2016年05月_泰山不老生

09月 07月 06月 05月 04月 03月 02月 01月

原创 Spark的RDD检查点实现分析

Spark的RDD执行完成之后会保存检查点，便于当整个作业运行失败重新运行时候，从检查点恢复之前已经运行成功的RDD结果，这样就会大大减少重新计算的成本，提高任务恢复效率和执行效率，节省Spark各个计算节点的资源。

2016-05-26 10:30:20 17035 5

原创 Hadoop2.6.0运行mapreduce之推断（speculative）执行（下）

前言在《Hadoop2.6.0运行mapreduce之推断（speculative）执行（上）》一文中对推断执行技术的背景进行了介绍，并且在Hadoop集群上做了一些测试以验证mapreduce框架的推断执行。最后还从源码分析的角度解读了DefaultSpeculator的初始化和启动过程，其中涉及DefaultSpeculator的实例化、LegacyTaskRuntimeEstimator的实

2016-05-19 10:00:07 11350

原创 Hadoop2.6.0运行mapreduce之推断（speculative）执行（上）

前言当一个应用向YARN集群提交作业后，此作业的多个任务由于负载不均衡、资源分布不均等原因都会导致各个任务运行完成的时间不一致，甚至会出现一个任务明显慢于同一作业的其它任务的情况。如果对这种情况不加优化，最慢的任务最终会拖慢整个作业的整体执行进度。好在mapreduce框架提供了任务推断执行机制，当有必要时就启动一个备份任务。最终会采用备份任务和原任务中率先执行完的结果作为最终结果。由于具体分析推

2016-05-12 14:39:44 23882

原创 Hadoop2.6.0运行mapreduce之Uber模式验证

在有些情况下，运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大，如果此时的任务分片很多，那么为每个map任务或者reduce任务频繁创建Container，势必会增加Hadoop集群的资源消耗，并且因为创建分配Container本身的开销，还会增加这些任务的运行时延。如果能将这些小任务都放入少量的Container中执行，将会解决这些问题。

2016-05-05 14:55:38 25595 2

poi官方文档资料

关于excel 操作的开源poi项目文档

2012-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人