Hadoop-MapReduce
@张火火
这个作者很懒,什么都没留下…
展开
-
Hadoop优化之常用调优参数
1)资源相关参数 (1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb 一个ReduceTas...原创 2020-08-14 20:37:46 · 132 阅读 · 0 评论 -
简单的hadoop数据压缩案例实操
简单的hadoop数据压缩案例实操 编码思路 压缩 1.获取文件输入流 2.需要先获取一个普通的文件输出流,然后创建压缩文件的输出流,并将普通文件的输出流传入压缩文件输出流方法中,来做到输出压缩文件的效果(注意,还需要指定压缩的类型) 3.进行流的对拷 4.关闭流 解压缩 1.获取一个普通的文件输入流,再创建一个压缩文件的输入流,把普通文件输入流作为参数传入 2.对比上述压缩过程,需要加一个输入的文件是否是支持的压缩文件的判断 3.获取普通文件输出流 4.流的对拷 5.关闭流 代码实现 public cla原创 2020-08-14 20:20:08 · 198 阅读 · 0 评论 -
Hadoop-MapReduce压缩参数配置
参数 默认值 阶段 建议 io.compression.codecs (在core-site.xml中配置) 无,这个需要在命令行输入hadoopchecknative查看 输入压缩 Hadoop使用文件扩展名判断是否支持某种编解码器 mapreduce.map.output.compress(在mapred-si...原创 2020-08-14 18:19:07 · 370 阅读 · 0 评论 -
MapJoin案例详解
MapJoin 1.MapJoin的重要知识点 MapJoin适用于有一张十分小的表和一张甚至多张非常小的表的场景,这样的话就可以在MapTask阶段将非常小的那几张表加载进内存,提前处理业务从而减少Reduce端的压力,以减少数据倾斜。 2.案例操作 2.1需求 order.txt pid id amount 原创 2020-08-12 22:18:35 · 1232 阅读 · 1 评论