Hadoop
文章平均质量分 55
浩先生_FOREVER
突然脑子发热想写点儿博客。。。
展开
-
Hadoop -实现自定义的Key类型
Hadoop MapReduce的key类型的实例应该可以进行互相比较来满足排序的目的。为了在一个MapReduce计算中用作键类型,Hadoop的Writable数据类型应该实现org.apache.hadoop.io.WritableComparable<T>接口。WritableComparable接口继承于org.apache.hadoop.io.Writable接口,并增加了Compare原创 2016-10-17 22:37:33 · 2675 阅读 · 0 评论 -
选择合适的Hadoop数据类型
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2016-10-17 22:25:19 · 901 阅读 · 0 评论 -
Hadoop-从mapper中输出不同值的类型的数据
问题来源: 在执行reduce端join操作时,或者我们在多个Mapreduce计算中将不同属性类型的数据聚合成一个数据集合时需要避免复杂性时,从mapper中输出属于多个值类型的数据集合,是非常有用的。偶或者我们需要处理不同的文件书写多个mapper时,每个文件传入的数据类型不同,在进行数据聚合时。然而,Hadoop reduce不允许多个输入值类型。在这种情况下,可以使用Generic原创 2016-10-18 22:48:26 · 1867 阅读 · 0 评论 -
shuffle过程中sort总结
写在前面的话: 新学期开学想重新复习一下Hadoop的知识,不断更新自己的知识库,在今天晚上阅读的过程中发现,有人已经总结了Mapreduce在shuffle过程中sort的实施。我以前从来都没有深入探究过sort过程应用的算法,以及sort的次数。今天我将其总结一下: 排序贯穿于Map任务和Reduce任务,是MapReduce非常重要的一环,排序操作属于MapReduce计算原创 2017-03-03 20:01:29 · 4443 阅读 · 3 评论 -
MapReduce的容错机制
前言:MapReduce计算框架提供了很好的容错机制,本篇文章就是来介绍该框架是如何来容错的,我们可以从错误出现的情况来探讨该框架是如何容错的,常见的错误有作业错误、网络错误甚至数据错误。任务出错任务出错是比较常见的,引起错误的原因通常有低质量的代码、数据损坏、节点暂时性故障、一个任务出现下列三种情况的任意一种时被认为出错。(1)抛出一个没有铺货的异常(原创 2017-03-03 20:07:22 · 4566 阅读 · 0 评论 -
HDFS NameNode重启优化
在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所以优化NameNode重启非常关键。转载 2017-03-18 13:48:35 · 871 阅读 · 0 评论