python3中base64的编码问题

今天用python3来base64编码一串字符,结果和正常的base64编码结果不一样,肝了一下午终于发现问题所在(我太菜了),写下这篇文章记录一下。

众所周知,python2是ascii编码,python3是默认unicode编码的,而python3用base64.b64encode()函数需要将参数转化成byte形式,而我们常用str.encode(‘utf-8’)将字符串转换成byte形式,但是就是这样出了问题.
假如字符串的每一个字符都是小于128的,python2和python3 base64编码的结果是一样的
python3

python2

但是如果有字符大于等于128
python3

python2

这里base64的结果就不一样了,到底是哪里出了问题呢?经过测试发现python3下

158转换成了utf-8 ‘0xc20x9e’,python3直接将’0xc20x9e’进行了base64编码,但是这明显是错误的,正常来说应该将158的二进制‘1001 1110’也就是‘0x9e’进行编码,很明显出现了问题,那么问题是怎样产生的呢?
经过查阅资料发现,大于128字节的unicode在转换成utf-8时有以下规则:
UTF-8编码规则:如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,n个字节就有n个1,n+1位为0,其余各字节均以10开头
下表总结了编码规则, 字母x表示可用编码的位.

用158为例,158的二进制表示为1001 1110,需要两个字节,对应的utf-8格式为110x xxxx 10xx xxxx,我们需要11位二进制数,将1001 1110补成11位,高位用0填充,000 1001 1110 ,写入得到1100 0010 1001 1110,转换成16进制为’0xc20x9e’。
发现完问题,该怎么解决问题呢?
既然编码成utf-8有问题,那么就尝试下别的编码呗,这里推荐‘latin_1’,

这样就ok啦

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值