一 .起因
在配置好Zeppelin 和 Livy之后,日常使用的过程中发现,Spark sql或者filter等操作中带上中文的话返回结果总是为空。 但是日常使用中并不是所有信息都可以用英文表示,例如家庭地址就不方便用英文表示。
二 . 查找问题由来
问题一出现,我就立马联想到了编码问题,毕竟之前被python unicode编码折腾过。但是zeppelin,livy, spark这三个地方到底是哪里的交互中编码出了问题呢?
在这篇文章中,作者也在spark上碰到了类似的字符串编码问题。
按照他的思路,我试着查看zeppelin的log和livy 的log.
但是zeppelin的log中所有中文都可以正常显示,livy的log则很不完善,并没有记录收到请求的相关信息。
然后我试着在使用python 直接仿照livy 官网的例子向livy 直接发送带中文spark sql查询,结果可以正确返回结果。
同时查看yarn logs,可以发现如下的对比。
ZEPPELIN 发送到livy的请求产生的log:
INFO execution.SparkSqlParser: Parsing command: label = '?'
17/06/12 18:05:17 INFO execution.SparkSqlParser: Parsing command: label = '?'
17/06/12 18:05:17 INFO datasources.