CentOS 6下Python处理utf-8的坑
之前在CentOS 6下部署python3+tornado,处理编码格式为UTF-8的HTTP请求,但奇怪的发现,将bytes类型的请求内容decode的时候会报解码错误:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
同样的程序,在Windows和CentOS 7下都是正常的,只在CentOS 6下面有问题。
排查过程
我注意到,错误提示是ascii解码错误,难道是默认的编码方式不是utf-8?一看decode函数定义,默认编码是utf-8啊,而且在参数中手动指定为utf-8,一样的报这个错误。
把bytes的解码函数都试了,全都报这个错,然后突然想到既然是报值域不对,那是不是内容中没有中文就行了?试了一下全英文,果然可以执行通过了。
接下来就是搜索解决方案了,网上搜到的方法是,将python的系统默认编码设为utf8:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
然而,并没有用,因为我先查了一下默认的编码,本来就是u