spark-sql中文字符使用问题

本文档展示了在Spark SQL环境中处理中文字符的步骤,包括确认文本文件的UTF-8编码,设置正确的客户端语言环境(如`en_US.UTF-8`),以及在遇到乱码问题时如何排查和解决,如通过`iconv`命令转码和调整终端字符显示设置。
摘要由CSDN通过智能技术生成

所有涉及数据源显示都涉及原始数据的字符集编码和客户端语言环境的设置。

那么在spark-sql环境,只要正确的字符集编码和正确的客户端语言环境设置,显示,使用中文,完全不是困难。

#上传的文本文件编码,确认是utf8

[root@slave2 test]# cat city_test.txt
浙江,杭州,300
浙江,宁波,150
浙江,温州,200
浙江,嘉兴,100
江苏,南京,270
江苏,苏州,299
江苏,某市,200
江苏,某某市,100
[root@slave2 test]# file city_test.txt
city_test.txt: UTF-8 Unicode text

[root@slave2 test]# echo $LANG
en_US.UTF-8
[root@slave2 test]#

##############

[root@snn spark]# echo $LANG
en_US.UTF-8

[root@snn spark]# which spark-sql
/opt/hadoop/spark-latest/bin/spark-sql
[root@snn spark]# /opt/hadoop/spark-latest/bin/spark-sql
15/12/20 13:37:35 WARN MetricsSystem: Using defau

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值