所有涉及数据源显示都涉及原始数据的字符集编码和客户端语言环境的设置。
那么在spark-sql环境,只要正确的字符集编码和正确的客户端语言环境设置,显示,使用中文,完全不是困难。
#上传的文本文件编码,确认是utf8
[root@slave2 test]# cat city_test.txt
浙江,杭州,300
浙江,宁波,150
浙江,温州,200
浙江,嘉兴,100
江苏,南京,270
江苏,苏州,299
江苏,某市,200
江苏,某某市,100
[root@slave2 test]# file city_test.txt
city_test.txt: UTF-8 Unicode text
[root@slave2 test]# echo $LANG
en_US.UTF-8
[root@slave2 test]#
##############
[root@snn spark]# echo $LANG
en_US.UTF-8
[root@snn spark]# which spark-sql
/opt/hadoop/spark-latest/bin/spark-sql
[root@snn spark]# /opt/hadoop/spark-latest/bin/spark-sql
15/12/20 13:37:35 WARN MetricsSystem: Using defau