今天查询hive中的数据发现一个问题,hive客户端查询显示是&#x开头的乱码,查看原数据库中也是这样,但是在浏览器中可以解析这种编码。
&#xxx;‘ 的格式其实是unicode,&#后面跟的是unicode字符的十进制值。
Python有内置的标准库来解码,使用起来更为简便:
import HTMLParser
s = '【试呼】'
h = HTMLParser.HTMLParser()
print h.unescape(s)
输出:
【试呼】
完美解决“乱码”问题。