Spark 处理中文乱码问题（UTF-8编码）

最新推荐文章于 2024-08-19 15:43:18 发布

amber_amber

最新推荐文章于 2024-08-19 15:43:18 发布

阅读量3.9w

点赞数 2

分类专栏： spark学习分享文章标签： spark 编码汉字 UTF-8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Amber_amber/article/details/50036779

版权

在使用Spark处理包含中文的XML数据时遇到乱码问题，经排查发现是由于executor默认编码为ISO-8859-1导致。通过指定编码方式为UTF-8，解决了在解析和转换过程中出现的乱码问题。

摘要由CSDN通过智能技术生成

问题场景

要用spark处理一大堆微信日志数据，日志存放在HDFS上，是xml格式，里面有大量的中文。用scala + java实现了xml的处理逻辑，其中有一步是要获取xml中的一个title字段，中文。不管怎么抓取，最终得到的中文都会变成一堆“？？？？？”，乱码了。从xml中获取非中文字段，没有任何问题。也就是说，代码的逻辑是没什么问题的。

问题解析

直接用hadoop fs -text或者hadoop fs -cat查看HDFS上的文件，是可以正常显示的，也就是说HDFS上存放的原数据是好的。那么就肯定是读取数据或者处理数据的过程中出了问题。spark on yarn的数据处理，同时涉及了HDFS，App driver, App excutor之间的交互，所以还真没法一下就判断出是哪一步传输中出了问题。抽丝剥茧，先梳理一遍spark的处理逻辑：

（1）从HDFS把xml读取到每个NM上的executor中（spark on yarn环境）

（2）在executor中对xml进行处理，获取中文字段。这里我实现了一个java方法，调用dom来解析xml。

（3）把解析后的字段collect到driver中，做存储或者输出打印等。

（4）或者把解析后的字段重新存入HDFS

进入Spark-shell，依次验证这几个步骤。读入HDFS上的xml文件，然后直接写入HDFS，检查发现字符显示正常，排除步骤（1）（4

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。