如何去掉mapreduce自动添加的分隔符

     我们在使用streaming模式的mapreduce开发程序的时候,经常会发现输出结果中被莫名其妙的添加了分割符,比如在一行的中间或者结尾多了一个Tab符号。尤其是输出只有一个字段的时候,末尾一定会被添加一个Tab符,看着十分恶心,而且有可能影响程序的正确性,所以我们一定要除掉他。

    首先来看看他是怎么产生的。因为streaming版本的mapreduce,会将程序的输出按照key/velue的形式组织,而且key/value之间需要有一个分隔符,方便程序区分。这个分割符,默认的就是Tab。我们可以通过-jobconf stream.map.output.field.separator=, 和-jobconf mapred.textoutputformat.separator=,来修改。

    前面提到了,如果在mapper阶段或者reduce阶段,只有key输出,没有value时(默认是以tab作为key和value的分割。所以如果输出的数据中没有tab,就表示只有key,没有value),mapreduce框架会自动给数据加上一个tab,即使我们修改了分割符,那它也会添加修改后的分割符,依然不能解决这个问题。针对这种情况,hadoop提供了一个参数,增加-jobconf mapred.textoutputformat.ignoreseparator=true 通过这个方法,可以去掉自动补上的tab。

    但是有一点需要注意: map阶段和reduce阶段都会出现以上说明的自动补tab的问题,而-jobconf mapred.textoutputformat.ignoreseparator=true参数只能去掉reduce阶段增加的tab,所以如果在map阶段被自动加上了tab,需要自行手工在reduce程序中删除之。 对于只有map的程序,可以通过增加一轮reduce,然后在reduce中使用参数,去除Tab键。
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值