如何避免Hadoop streaming 自动给单行数据加tab

使用hadoop streaming时,如果数据只有一列,hadoop会自动在结尾加\t。

避免这种情况有两种解决方法:


1. 使用重定向:这也有两种实现

1)一种通过hadoop dfs -put/copyFromLocal命令,把streaming的标准输出重新定向到输出路径。

如:

${HADOOP_HOME}/bin/hadoop --config ${LOCAL_HDP_CONF_PATH} dfs -copyFormLocal- ${PACK_PATH}/${mapred_task_partition}.pack

其中标红的- 表示标准输入流

${HADOOP_HOME}是hadoop系统变量,表示分布式结点上的hadoop路径。


2)另一种是把streaming的标准输出重新定向到结点的本地文件,然后把输出的本地文件传递到输出路径。

如:$HADOOP_HOME/bin/hadoop fs -conf hadoop-site.xml -put local_file ${PACK_PATH}/$mapred_task_partition.pack



2.  使用hadoop streaming的参数

mapred.textoutputformat.ignoreseparator=true

这样就不会自动加\t了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值