- 博客(3)
- 资源 (22)
- 收藏
- 关注
原创 如何在hadoop中控制map的个数
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,默认为64M,可以通过参
2013-06-20 13:56:16 27049 7
原创 如何去掉mapreduce自动添加的分隔符
我们在使用streaming模式的mapreduce开发程序的时候,经常会发现输出结果中被莫名其妙的添加了分割符,比如在一行的中间或者结尾多了一个Tab符号。尤其是输出只有一个字段的时候,末尾一定会被添加一个Tab符,看着十分恶心,而且有可能影响程序的正确性,所以我们一定要除掉他。 首先来看看他是怎么产生的。因为streaming版本的mapreduce,会将程序的输出按照key
2013-06-19 21:52:07 8877 2
原创 mapreduce出core处理
我们在使用hadoop的时候,会经常遇到程序崩溃的情况,比如程序出core(出core的时候会报134错误)。程序出core之后,我们希望得到程序的core文件,或者是错误日志。但是hadoop程序的运行时环境,一般在程序结束后,就会自动删除,所以很难直接得到core文件。 这里介绍几种方法,用于获取core文件:(1) 保留出错现场 设置hadoop的jobconf参数keep.
2013-06-19 21:33:38 1677
《hadoop开发者》第三期
2012-05-10
《Hadoop开发者》第一期.pdf
2012-05-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人