MapReduce
文章平均质量分 63
Mike_H
这个作者很懒,什么都没留下…
展开
-
Avro技术应用_2. 使用 Avro 来存储大量小的二进制文件
Github 源码:https://github.com/Hanmourang原创 2015-11-29 17:36:58 · 2723 阅读 · 0 评论 -
MapReduce性能优化_2. 诊断 Map 端性能瓶颈
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2 诊断性能瓶颈技术28 调查输入数据中的特别大的部分技术29 诊断map端的数据倾斜(data skew)技术30 诊断map任务的低吞吐量问题技术31 小文件技术32 不可分块的文件有的时候作业的执行时间会长得惊人。想靠猜也是很难猜对问题在哪。这一章中将介绍如何界定问翻译 2015-12-07 16:04:31 · 838 阅读 · 0 评论 -
MapReduce性能优化_4. 诊断一般性能瓶颈
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.4 任务一般性能问题技术37 作业竞争和调度器限制技术38 使用堆转存(stack dump)来查找未优化的用户代码这部分将介绍那些对map和reduce任务都有影响的性能问题。技术37 作业竞争和调度器限制即便map任务和re翻译 2015-12-08 16:31:39 · 762 阅读 · 0 评论 -
MapReduce性能优化_7. 减小数据倾斜的性能损失
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.4 减小数据倾斜的性能损失数据倾斜是数据中的常见情况。数据中不可避免地会出现异常值(outlier),并导致数据倾斜。这些异常值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类:数据频率倾斜 -- 某一个区域的数据量要远远大于其他区域。数据大小倾斜 -- 部分记翻译 2015-12-08 17:31:53 · 1135 阅读 · 0 评论 -
MapReduce性能优化_6. 优化 Shuffle & Sort 阶段
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.3 优化洗牌(shuffle)和排序阶段技术46 规避使用reduce技术47 过滤和投影技术48 使用combine技术49 用Comparator进行超快排序洗牌和排序阶段都很耗费资源。洗牌需要在map和reduce任务之间传输数据翻译 2015-12-08 17:15:51 · 636 阅读 · 0 评论 -
MapReduce性能优化_8. 优化MapReduce的用户JAVA代码
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.5 优化MapReduce用户JAVA代码MapReduce执行代码的方式和普通JAVA应用不同。这是由于MapReduce框架为了能够高效地处理海量数据,需要成百万次调用map和reduce函数。每次调用仅用较少时间。那么就不能用普通的经验来预测常见库(含JDK)的性能表现。翻译 2015-12-08 17:38:12 · 613 阅读 · 0 评论 -
MapReduce性能优化_1. 性能测量
本文翻译于 《Hadoop in Practice》, 摘抄自:大牛翻译系列性能调优的基础主要依赖于系统的性能指标和实验数据。依据这些指标和数据,才能找到系统的性能瓶颈。性能指标和实验数据要通过一系列的工具和过程才能得到。这部分里,将介绍Hadoop自带的工具和性能指标。还将捎带介绍性能监控工具。 1 抽取作业统计数据[job statistics]的工具这翻译 2015-12-07 15:24:49 · 697 阅读 · 0 评论 -
MapReduce性能优化_3. 诊断 Reduce 端性能瓶颈
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.3 Reduce的性能问题技术33 Reduce实例不足或过多技术34 诊断reduce段的数据倾斜的问题技术35 确定reduce任务是否存在整体吞吐量过低技术36 缓慢的洗牌(shuffle)和排序Reduce的性能问题有和map类似的方面,也有和map不同的翻译 2015-12-08 16:24:40 · 1817 阅读 · 0 评论 -
MapReduce性能优化_5. 诊断一般性能瓶颈
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.5 硬件性能问题技术39 查找硬件的失效技术40 CPU竞争技术41 内存交换技术42 磁盘健康技术43 网络尽管单独的硬件的MTTF(平均失效前时间)都数以年记,然而在集群中就完全不是这么一回事了。整个集群的MTTF就要小得多。这一节要介绍如何确定CPU,内存,翻译 2015-12-08 16:43:45 · 961 阅读 · 0 评论 -
Avro技术应用_11. 将 HBase 数据存储为 Avro格式的二进制数据 -- 待完善
具体内容将会在后续进行完善,敬请期待原创 2015-12-06 15:11:45 · 1655 阅读 · 0 评论 -
Avro技术应用_10. 基于键值 - 在 MR 中把文本文件(csv)转换成键值对格式的 Avro 文件 -- 待完善
具体内容将会在后续进行完善,敬请期待原创 2015-12-06 15:08:14 · 818 阅读 · 0 评论 -
Avro技术应用_9. 基于记录 - MR 输入/出/中间数据使用 Avro 类型 -- 待完善
具体内容将会在后续进行完善,敬请期待原创 2015-12-06 15:05:54 · 472 阅读 · 0 评论 -
Avro技术应用_8. 混合模式 - MR 输入/出文件为 Avro类型 -- 待完善
具体内容将会在后续进行完善,敬请期待原创 2015-12-06 15:03:46 · 530 阅读 · 0 评论 -
Parquet_8. MapReduce & Parquet -- 待完善
具体内容将会在后续进行完善,敬请期待原创 2015-12-06 23:57:51 · 1452 阅读 · 0 评论 -
Parquet_3. 在 Impala, Hive, Pig, MR中使用 Parquet File -- 待完善
本节将跟大家讨论一下如何在 Impala,Hive,Pig,MapReduce 中使用列式存储格式的文件具体内容将会在后续进行完善,敬请期待原创 2015-12-06 23:39:26 · 1139 阅读 · 0 评论 -
Hadoop 过滤,映射,谓词下推基本概念
本文中涉及的源码地址:https://github.com/Hanmourang/hiped2/blob/master/src/main/java/hip/ch6/joins/FilterProjection.java今天想跟大家讨论一下以下几个概念:Filter , Projections, 和 Puchdowns。1. Filter(过滤) 和 Project(映射) 在传统的原创 2015-12-02 14:22:58 · 8700 阅读 · 0 评论 -
MapReduce性能优化_9. 数据序列化
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.6 优化数据序列化如何存储和传输数据对性能有很大的影响。在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能。 压缩压缩是Hadoop优化的重要部分。通过压缩可以减少作业输出数据的储存足迹,加速MapReduce作业下游接收数据。另外,在map和翻译 2015-12-08 17:44:51 · 638 阅读 · 0 评论