运行hadoop中出现的数据格式问题(for input string 异常.........(后面一串数字))

最近使用hadoop实现kmeans的时候数据格式老是不对,上网查了一下,网上大部分都说数字之间用空格隔开

上网查了一下,有说数字太大的,还有的说超出int范围了,关于这类错误比较少,所以就总结一下。其实是每一行两个数字之间的空白太多了,每一行两个数字之间只有一个空格,我使用的kmeans jar包是mahout里面的,如果查看kmeans源码就知道每一行两个数字之间只有一个空格。因此我使用正则表达式将每一行的多个空格替换成一个空格,代码如下


这么处理后就能正常运行了,我的部分原始数据长这样



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值