介绍
图片预处理时经常会用到base64的编码方式,但其实base64能基于64个可打印字符来表示任意二进制数据,其过程是可逆的。
原理
根据一个实例来表示编码过程,比如单词:image
1、首先,我们根据ASCII码对应表格找到每个字母对应的值:
i : 01101001
m : 01101101
a : 01100001
g : 01100111
e : 01100101
2、因为base64的码值范围在0~63,所以只需要6bit即可表示,上面5个字母的二进制连在一起 5*8=40 bit的数据并不能被6整除,所以需要在末尾补零,每次补8个,直到既能被6整除,又能被8整除(最小公倍数),在这个例子中只需要补一次得到 48bit 正好可以满足:
原始: 01101001 01101101 01100001 01100111 01100101 (每8bit写在一起)
转换并补零:011010 010110 110101 100001 011001 110110 010100 000000 (每6bit写在一起)
3、将转换后的数据,按照base64的编码表进行编码,需要注意的是如果6bit的数据都来自于填充,那么用’='编码(也就是说base64其实是使用了65个字符来编码的):
011010(26,a) 010110(22,W) 110101(53,1) 100001(33,h) 011001(25,Z) 110110(54,2) 010100(20,U) 000000(填充0,=)
所以编码结果为: aW1hZ2U=
补充:对于 A 和 = 的区别可以通过一个例子解释,假设输入为 X
按照之前的步骤,X对应的ASCII码值为:01011000 每6位划分为:010110 00 进行补零 8+8=16 不能被6整除,所以再次补零 16+8=24 满足条件,所以最终转化为:010110 000000 000000 000000
按照base64表对其编码:010110(22,W) 000000(前两bit非填充,A) 000000(填充0,=) 000000(填充0,=)
所以编码结果为: WA==
python3中的base64处理模块
平时使用python进行base64编解码时,只需要简单的调用函数即可:
(注意:python3中字符都为unicode编码,而b64encode函数的参数为byte类型,所以必须先转码。)
s = "image"
bs = base64.b64encode(s.encode("utf-8")) # 将字符为unicode编码转换为utf-8编码
print(bs) # 得到的编码结果前带有 b
>>> b'aW1hZ2U='
#与之前原理推导结果相同
bbs = str(base64.b64decode(bs), "utf-8")
print(bbs) # 解码
>>> image
bs = str(base64.b64encode(s.encode("utf-8")), "utf-8")
print(bs) # 去掉编码结果前的 b
>>> aW1hZ2U=
bbs = str(base64.b64decode(bs), "utf-8")
print(bbs) # 解码
>>> image
#带不带b,解码方式相同
参考博客:https://blog.csdn.net/jtshongke/article/details/83505132