MapReduce
文章平均质量分 66
Jackie_ZHF
日日新 苟日新 又日新
展开
-
MapReduce的调优总结
MapReduce的调优总结 Mapreduce服务器调优 1. mapreduce.task.io.sort.factor: mr程序进行合并排序的时候,打开的文件数量,默认为10个. 2. mapreduce.task.io.sort.mb: mr程序进行合并排序操作的时候或者mapper写数据的时候,内存大小,默认100M. 3. mapreduce.map.sort.spill.p...原创 2018-02-26 19:08:06 · 778 阅读 · 2 评论 -
MapReduce的源码分析之Cli客户端源码讲解
MapReduce的源码分析之Cli 客户端源码分析: 客户端cli干了什么事情? 加载配置文件> 执行自定义参数的job任务(框架有很多默认参数)> submit提交任务>计算文件的split切片个数 [maps的个数、输入类型、输入大小] > 清单信息[block位置信息、block的index、split的大小] &...原创 2018-03-09 10:11:47 · 477 阅读 · 0 评论 -
Python Hadoop使用时注意的坑-- MRJob框架及python环境运行
时间有限复杂的问题简单说,什么都不如来干货~使用MRJob框架 时用网上说的提交任务到集群的命令,程序会跑着挂掉。。。报143 127 的错误!!后来才发现正确的是:本地运行命令 python mypyfile.py -r local <input> python mypyfile.py -r local <input> ...原创 2018-06-29 11:34:49 · 3023 阅读 · 0 评论 -
对HBase集群做跨集群数据迁移
概述DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。使用方法基本使...原创 2019-01-25 20:07:46 · 1575 阅读 · 0 评论