Spark 处理中文乱码问题(UTF-8编码)

问题场景

要用spark处理一大堆微信日志数据,日志存放在HDFS上,是xml格式,里面有大量的中文。用scala + java实现了xml的处理逻辑,其中有一步是要获取xml中的一个title字段,中文。不管怎么抓取,最终得到的中文都会变成一堆“?????”,乱码了。从xml中获取非中文字段,没有任何问题。也就是说,代码的逻辑是没什么问题的。


问题解析

直接用hadoop fs -text或者hadoop fs -cat查看HDFS上的文件,是可以正常显示的,也就是说HDFS上存放的原数据是好的。那么就肯定是读取数据或者处理数据的过程中出了问题。spark on yarn的数据处理,同时涉及了HDFS,App driver, App excutor之间的交互,所以还真没法一下就判断出是哪一步传输中出了问题。抽丝剥茧,先梳理一遍spark的处理逻辑:

(1) 从HDFS把xml读取到每个NM上的executor中(spark on yarn环境)

(2) 在executor中对xml进行处理,获取中文字段。这里我实现了一个java方法,调用dom来解析xml。

(3) 把解析后的字段collect到driver中,做存储或者输出打印等。

(4) 或者把解析后的字段重新存入HDFS

进入Spark-shell,依次验证这几个步骤。读入HDFS上的xml文件,然后直接写入HDFS,检查发现字符显示正常,排除步骤(1)(4

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值