hadoop streaming python 处理 lzo 文件遇到的问题

1, 代码中需要注意的有:

[python]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. #!/usr/bin/env python  
  2. #coding:utf8  
  3. line = line.decode("utf8")  
  4. try:  
  5. except Exception,ex:  
  6.     pass  

 
 

这些点都需要注意,否则,一个小问题就会导致任务失败

其中,如果输入数据中有脏数据,python脚本抛异常,但是如果代理里没有处理异常,就会报错,类型下面的



2, 下面两点需要注意

[java]  view plain  copy
 print ? 在CODE上查看代码片 派生到我的代码片
  1. -D stream.map.input.ignoreKey=true \  
  2. -inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat \  

 

 

表示忽略输入的lzo文件中的行号,避免行号对输入数据的影响


参考自:http://blog.csdn.net/baiyangfu_love/article/details/41247867


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值