spark-shell 显示乱码

最新推荐文章于 2022-10-23 11:14:08 发布

weixin_33794672

最新推荐文章于 2022-10-23 11:14:08 发布

阅读量989

点赞数

文章标签：大数据 shell

原文链接：http://www.cnblogs.com/parkin/p/7879221.html

版权

用spark shell 进入console环境

查看字符集

scala> System.getProperty("file.encoding")
res5: String = ISO-8859-1

修改字符集为UTF-8

scala> System.setProperty("file.encoding","UTF-8")
res4: String = ISO-8859-1  // 这里返回的结果显示非utf-8 ，但是再用上面查看的命令发现，其实已经设置成功。

到此我的问题，其实并没解决。

情况依旧。

然后发现文件在hdfs上以OrcOutputFormat格式存储，所以显示乱码。

需要引入解码类

scala> textFile.first()
res7: String = ORC ???b?b?????Em????????d??! ?.o%U.~?T ???0M5MK?L5??W0??K????9???�{
ke9??8?????

scala> import org.apache.spark.sql.hive.orc._
import org.apache.spark.sql.hive.orc._

　／／以上操作后，问题解决。

转载于:https://www.cnblogs.com/parkin/p/7879221.html

优惠劵

关注关注