今天用python3来base64编码一串字符,结果和正常的base64编码结果不一样,肝了一下午终于发现问题所在(我太菜了),写下这篇文章记录一下。
众所周知,python2是ascii编码,python3是默认unicode编码的,而python3用base64.b64encode()函数需要将参数转化成byte形式,而我们常用str.encode(‘utf-8’)将字符串转换成byte形式,但是就是这样出了问题.
假如字符串的每一个字符都是小于128的,python2和python3 base64编码的结果是一样的
python3
python2
但是如果有字符大于等于128
python3
python2
这里base64的结果就不一样了,到底是哪里出了问题呢?经过测试发现python3下
158转换成了utf-8 ‘0xc20x9e’,python3直接将’0xc20x9e’进行了base64编码,但是这明显是错误的,正常来说应该将158的二进制‘1001 1110’也就是‘0x9e’进行编码,很明显出现了问题,那么问题是怎样产生的呢?
经过查阅资料发现,大于128字节的unicode在转换成utf-8时有以下规则:
UTF-8编码规则:如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,n个字节就有n个1,n+1位为0,其余各字节均以10开头
下表总结了编码规则, 字母x表示可用编码的位.
用158为例,158的二进制表示为1001 1110,需要两个字节,对应的utf-8格式为110x xxxx 10xx xxxx,我们需要11位二进制数,将1001 1110补成11位,高位用0填充,000 1001 1110 ,写入得到1100 0010 1001 1110,转换成16进制为’0xc20x9e’。
发现完问题,该怎么解决问题呢?
既然编码成utf-8有问题,那么就尝试下别的编码呗,这里推荐‘latin_1’,
这样就ok啦