![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
3.1 Hadoop
文章平均质量分 50
CongyingWang
咸鱼太闲
展开
-
MapReduce工作笔记——Job上传普通文件和大文件
文章目录0. 前言1. 上传普通文件2. 上传大文件2.1 cacheFile上传至Hdfs2.2 cacheArchive上传压缩文件MapReduce工作笔记 系列目录:MapReduce工作笔记——目录0. 前言我们在配置MR Streaming任务的时候,通常会上传mapper、reducer以及其他会用到的一些文件,在MapReduce工作笔记——Hadoop shell 常用...原创 2018-11-29 18:56:37 · 2822 阅读 · 0 评论 -
MapReduce工作笔记——yarn reducer 内存溢出 beyond physical memory limits
文章目录0. 前言1. 解决方法MapReduce工作笔记 系列目录:MapReduce工作笔记——目录0. 前言有天在运行一个例行任务的时候,在 reducer 到 100% 的时候,任务突然崩了,以前跑的好好的程序怎么突然就崩了呢?,打开track url一看,报了如图所示的错误:Current usage: 2.1gb of 2.0gb physical memory use...原创 2019-02-12 17:17:13 · 968 阅读 · 0 评论 -
MapReduce工作笔记——Streaming多路输出
文章目录多路输出实现MapReduce工作笔记 系列目录:MapReduce工作笔记——目录多路输出加入如下命令:-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat \ -jobconf suffix.multiple.outputformat.filesuffix=file_path...原创 2018-12-11 19:32:23 · 1423 阅读 · 0 评论 -
MapReduce工作笔记——Job调度参数设置
文章目录1. JobName2. Reduce的个数3. Job的task并发数4. 设置Job的失败比例5. 设置Job的优先级6. 设置task的超时时间7. 预测执行1. JobName指定有意义JobName, 一般是自己的名字+Job作用。mapred.job.name="xxx_test"2. Reduce的个数说明1mapred.reduce.tasks3. Job...原创 2018-12-13 18:02:36 · 2447 阅读 · 0 评论 -
MapReduce工作笔记——Streaming输出output压缩
文章目录MapReduce工作笔记 系列目录:MapReduce工作笔记——目录提交job时指定如下参数:-D mapred.output.compress=true \-D mapred.output.compression.codec=[CODEC] \其中[CODEC] 有如下几种:# gz压缩: -D mapred.output.compression.codec=or...原创 2018-12-05 19:12:22 · 1528 阅读 · 0 评论 -
MapReduce工作笔记——Streaming输入input解压
文章目录MapReduce工作笔记 系列目录:MapReduce工作笔记——目录如果需要对输入做解压操作,可以加入命令:-D mapred.ignore.badcompress="true" \-D mapred.use.multimembergzip="true" ...原创 2018-12-05 19:07:42 · 1457 阅读 · 0 评论 -
MapReduce工作笔记——Hadoop shell 常用文件操作命令
文章目录0. 文件操作基本格式1. ls2. put3. get4. rm5. rmr6. mkdir7. cp8. mv9. du10. text11. test12. tailMapReduce工作笔记 系列目录:MapReduce工作笔记——目录0. 文件操作基本格式hadoop fs [generic options]1. ls列出当前目录下的文件以及文件夹,类似于UNIX...原创 2018-11-28 17:17:11 · 2707 阅读 · 0 评论 -
MapReduce工作笔记——目录
MapReduce工作笔记MapReduce工作笔记——Hadoop MR Streaming通用模板原创 2018-11-28 16:46:47 · 1459 阅读 · 0 评论 -
MapReduce工作笔记——Hadoop MR Streaming通用模板
文章目录模板概览由于工作中频繁使用MapReduce ,所以为了提升日后的工作效率,搭建作者最常用的MR Streaming 模板。模板概览#!/bin/sh# #-----------------------------------## _ _ _# | | | | __ _ __| | ___ ___ _ __# | |_| |/ _...原创 2018-11-28 16:40:15 · 2669 阅读 · 0 评论 -
MapReduce工作笔记——Hadoop Streaming多目录/多路输入
文章目录0. 前言1. 使用通配符*2. 逗号分割3. 输入数组形式4. 总结MapReduce工作笔记 系列目录:MapReduce工作笔记——目录0. 前言在工作中时常会遇到一个job需要多路径的输入,比如计算CTR,需要PV、Click的输入路径,或者是想对一周的数据做Merge等, 下面将提供三种方法来完成多目录/多路输入。比如,我路径下有如下共12个文件:$ hls /h...原创 2018-12-04 16:02:42 · 6851 阅读 · 1 评论 -
MapReduce工作笔记——Job提交任务中-D和-jobconf的区别
文章目录MapReduce工作笔记 系列目录:MapReduce工作笔记——目录在提交streaming程序时 -jobconf和-D 均可以指定提交功能参数,但使用-D 时必须将次参数放置在所有参数之首,包括-file和-input参数之前。-D 是用来替代-jobconf的,-jobconf参数将被废弃,但在提交java中只能使用-D。总结-jobconf和-D 本质上没有...原创 2018-12-04 15:23:48 · 3567 阅读 · 1 评论 -
MapReduce工作笔记——Streaming Job中jar包上传与使用指定
文章目录1. 第三方jar包上传2. 用户jar 包的指定使用MapReduce工作笔记 系列目录:MapReduce工作笔记——目录1. 第三方jar包上传使用-libjars上传用户指定的jar包并加入classpath中(多个jar包以逗号分隔)Code.1.1 file 上传示例-libjars mysql-connector-java.jar2. 用户jar 包的指定使...原创 2018-11-29 19:22:46 · 2057 阅读 · 0 评论 -
MapReduce工作笔记——指定列分桶/排序
文章目录MapReduce工作笔记 系列目录:MapReduce工作笔记——目录比如指定对前两列进行分桶并排序-D mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \-D stream.num.map.output.key.fields=2 \-D mapr...原创 2019-07-04 16:56:44 · 911 阅读 · 1 评论