![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
arthur503
这个作者很懒,什么都没留下…
展开
-
Hadoop Stream Python mapper或reducer添加参数
在-mapper后面,应该跟的是一个命令而不是一个文件名。之前写的格式是:-mapper ./mapper_single.py但其实执行的是./mapper_single.py命令(mapper_single.py需要有可执行权限)。因此,需要对mapper或reducer传参数的时候,可以将这个命令用引号(单引号或双引号)扩住:-reducer "./reducer_si原创 2015-06-03 11:27:23 · 1671 阅读 · 0 评论 -
Hadoop中-put和-copyFromLocal的区别
如下中的stackoverflow的链接。简单的说,-put更宽松,可以把本地或者HDFS上的文件拷贝到HDFS中;而-copyFromLocal则更严格限制只能拷贝本地文件到HDFS中。???PS:“ put would prefer the HDFS scheme instead of the local file system”,也就是说,如果本地和HDFS上都存在相同路原创 2015-06-03 16:47:17 · 18684 阅读 · 2 评论 -
Hadoop的mapper输出中key和value之间的分隔符
Hadoop的mapper输出中key和value之间的分隔符必须是tab,而不能是空格,否则,会把整条记录都当做key来进行sort,导致sort后出错。原创 2015-10-28 20:38:37 · 1769 阅读 · 0 评论 -
Hadoop Streaming二次排序
由于Hadoop机器内存不足,所以需要把数据mapred进来跑。这样,就需要,同一个key下的输入数据是有序的,即:对于keyA的数据,要求data1先来,之后data2再来……。所以需要对data进行二次排序。-D stream.num.map.output.key.fields=2这个,可以设置在map之后,进行partition时,使用前两个tab的数据进行排序(包括原创 2015-12-23 16:28:36 · 1800 阅读 · 0 评论 -
Hadoop put file 错误:fs.FSInputChecker: Found checksum error
Hadoop往hdfs上put file的时候,今天报错如下:16/03/12 08:15:17 INFO fs.FSInputChecker: Found checksum error: b[0,原创 2016-03-12 09:35:32 · 3436 阅读 · 0 评论 -
Hadoop streaming: Exception in thread "main" java.io.IOException: No space left on device
在使用Hadoop streaming时,遇到报错如标题:packageJobJar: [mapper_sim.py, reducer_sim.py, XXX files, /tmp/hadoop-unjar2957146529644350496/] [] /tmp/ streamjob2631394570007422828.jar tmpDir=nullException in thr原创 2016-04-05 22:42:42 · 6373 阅读 · 0 评论 -
hadoop streaming部分问题总结
来源:https://hadoop.apache.org/docs/r1.2.1/streaming.html#Generic+Command+Options文档还是要好好看,中间遇到的好多问题文档中都有。之前看的时候没有感觉,等遇到了问题再来看,就知道是啥了。=========================================================原创 2016-04-20 11:46:25 · 799 阅读 · 0 评论