今天查询hive中的数据发现一个问题,hive客户端查询显示是&#x开头的乱码,查看原数据库中也是这样,但是在浏览器中可以解析这种编码。
&#xxx;‘ 的格式其实是unicode,&#后面跟的是unicode字符的十进制值。
Python有内置的标准库来解码,使用起来更为简便:
import HTMLParser
s = '【试呼】'
h = HTMLParser.HTMLParser()
print h.unescape(s)
输出:
【试呼】
完美解决“乱码”问题。
本文介绍了在Hive中遇到的Unicode乱码问题,并通过Python的HTMLParser标准库成功解决了该问题,实现了对特殊编码的有效解析。
893

被折叠的 条评论
为什么被折叠?



