spark-sql中文字符使用问题

最新推荐文章于 2024-08-16 20:58:31 发布

富兰克林008

最新推荐文章于 2024-08-16 20:58:31 发布

阅读量1.4w

点赞数

分类专栏： spark spark-sql

本文链接：https://blog.csdn.net/oufuji/article/details/50363977

版权

本文档展示了在Spark SQL环境中处理中文字符的步骤，包括确认文本文件的UTF-8编码，设置正确的客户端语言环境（如`en_US.UTF-8`），以及在遇到乱码问题时如何排查和解决，如通过`iconv`命令转码和调整终端字符显示设置。

摘要由CSDN通过智能技术生成

所有涉及数据源显示都涉及原始数据的字符集编码和客户端语言环境的设置。

那么在spark-sql环境，只要正确的字符集编码和正确的客户端语言环境设置，显示，使用中文，完全不是困难。

#上传的文本文件编码，确认是utf8

[root@slave2 test]# cat city_test.txt
浙江,杭州,300
浙江,宁波,150
浙江,温州,200
浙江,嘉兴,100
江苏,南京,270
江苏,苏州,299
江苏,某市,200
江苏,某某市,100
[root@slave2 test]# file city_test.txt
city_test.txt: UTF-8 Unicode text
[root@slave2 test]# echo $LANG
en_US.UTF-8
[root@slave2 test]#

##############

[root@snn spark]# echo $LANG
en_US.UTF-8
[root@snn spark]# which spark-sql
/opt/hadoop/spark-latest/bin/spark-sql
[root@snn spark]# /opt/hadoop/spark-latest/bin/spark-sql
15/12/20 13:37:35 WARN MetricsSystem: Using defau