python3中base64的编码问题

名字被抢的Stars

已于 2022-11-29 10:52:05 修改

阅读量2.9k

点赞数 1

文章标签： python

于 2020-04-01 21:37:00 首次发布

本文链接：https://blog.csdn.net/qq_45570082/article/details/105254489

版权

今天用python3来base64编码一串字符，结果和正常的base64编码结果不一样，肝了一下午终于发现问题所在（我太菜了），写下这篇文章记录一下。

众所周知，python2是ascii编码，python3是默认unicode编码的，而python3用base64.b64encode()函数需要将参数转化成byte形式，而我们常用str.encode(‘utf-8’)将字符串转换成byte形式，但是就是这样出了问题.
假如字符串的每一个字符都是小于128的，python2和python3 base64编码的结果是一样的
python3

python2

但是如果有字符大于等于128
python3

python2

这里base64的结果就不一样了，到底是哪里出了问题呢？经过测试发现python3下

158转换成了utf-8 ‘0xc20x9e’，python3直接将’0xc20x9e’进行了base64编码，但是这明显是错误的，正常来说应该将158的二进制‘1001 1110’也就是‘0x9e’进行编码，很明显出现了问题，那么问题是怎样产生的呢？
经过查阅资料发现，大于128字节的unicode在转换成utf-8时有以下规则：
UTF-8编码规则：如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，n个字节就有n个1，n+1位为0，其余各字节均以10开头
下表总结了编码规则, 字母x表示可用编码的位.

用158为例，158的二进制表示为1001 1110，需要两个字节，对应的utf-8格式为110x xxxx 10xx xxxx,我们需要11位二进制数，将1001 1110补成11位，高位用0填充，000 1001 1110 ,写入得到1100 0010 1001 1110，转换成16进制为’0xc20x9e’。
发现完问题，该怎么解决问题呢？
既然编码成utf-8有问题，那么就尝试下别的编码呗，这里推荐‘latin_1’，

这样就ok啦

名字被抢的Stars

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
python3中base64的编码问题

今天用python3来base64编码一串字符，结果和正常的base64编码结果不一样，肝了一下午终于发现问题所在（我太菜了），写下这篇文章记录一下。众所周知，python2是ascii编码，python3是默认unicode编码的，而python3用base64.b64encode()函数需要将参数转化成byte形式，而我们常用str.encode(‘utf-8’)将字符串转换成byte形式，...
复制链接

扫一扫