【Python系列专栏】第三十七篇 Python中常用内建模块（base64）

最新推荐文章于 2024-05-28 17:33:26 发布

Mrrunsen

最新推荐文章于 2024-05-28 17:33:26 发布

阅读量149

点赞数

分类专栏： Python 文章标签：字符串乱码 python 正则表达式 java

本文链接：https://blog.csdn.net/Mrrunsen/article/details/116395641

版权

Python 专栏收录该内容

77 篇文章 9 订阅

订阅专栏

本文详细介绍了Base64编码的原理和Python中的实现方式，包括标准Base64与URL安全的Base64编码。Base64是一种将二进制数据转化为可打印文本的编码方法，常用于在网络传输中携带二进制数据。文中还提供了一个能处理去掉等号的Base64解码函数的示例。

摘要由CSDN通过智能技术生成

文章目录

- base64

base64

简介

Base64是一种用64个字符来表示任意二进制数据的方法。

用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。

原理

Base64的原理很简单，首先，它使用总共64个字符进行编码（26个大小写字母+10个数字+加号+左斜杠）：

['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']

然后，对二进制数据进行处理时，每3个字节一组，就得到 3x8=24 bit，重新划分为4组，每组正好6个bit，有 2^6=64 种取值，对应64个字符的一个，：

这样我们就可以把二进制数据的3个字节使用4个字符来表示，这就是Base64编码。采用Base64编码会把3字节的二进制数据编码为4字节（4个字符所以是4字节）的文本数据，长度会增加33%。但好处是编码后的文本数据可以在邮件正文、网页等直接显示，而不会出现乱码的情况。

如果要编码的二进制数据不是3的倍数，最后多出1个或2个字节怎么办呢？ Base64编码采用 \x00 字节在末尾补充到3个字节，在编码的末尾会使用 = 号表示补了多少字节。解码的时候，会自动去掉用于补足的 \x00 字节。

Python中的实现方式

Python内置的 base64 模块可以直接进行base64的编解码：

>>> import base64
>>> base64.b64encode(b'binary\x00string')
b'YmluYXJ5AHN0cmluZw=='
>>> base64.b64decode(b'YmluYXJ5AHN0cmluZw==')
b'binary\x00string'

上面的代码中我们使用了 b 把字符串转为二进制，然后传入 b64encode() 函数进行编码，字符串长度为13个字节（注意 \x00 是一个字符，占1字节）。可以看到编码后所得字符串20个字节，并且使用两个 = 号表明编码过程中，由于13无法整除3，所以末尾补充了两个 \x00。注意，= 号是算在20个字节（15÷3×4=20 bit）里面的，而不是额外放在编码后的字符串后面。

由于标准的Base64编码后可能出现字符 + 和 /，在URL中就不能直接作为参数，所以又有一种 “url safe” 的base64编码，把字符 + 和 / 分别替换成 - 和 _：

>>> base64.b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd++//'
>>> base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
b'i\xb7\x1d\xfb\xef\xff'

我们也可以自定义64个字符的排列顺序，也即自定义Base64编码，不过，通常情况下没有必要这样做。注意，Base64仅仅是一种通过查表进行编码的方法，不能用于加密，即使使用自定义的编码表也不行（依然能很容易被破解）。Base64适用于小段内容的编码，比如数字证书签名、Cookie的内容等。由于 = 字符也可能出现在Base64编码中，但 = 用在URL、Cookie里面会造成歧义，所以，很多人会在Base64编码后把 = 去掉：

# 标准Base64:
'abcd' -> 'YWJjZA=='
# 自动去掉=:
'abcd' -> 'YWJjZA'

那么去掉 = 后解码要怎样完成呢？不用担心，因为Base64是把3个字节变为4个字节，所以，Base64编码的长度一定是4的倍数，解码时我们只需要在末尾加上足够的 = 把Base64字符串的长度变回4的倍数，就可以正常解码了。

小结

Base64是一种把任意二进制转换为文本字符串的编码方法，常用于在URL、Cookie、网页中传输少量二进制数据。

练习

请写一个能兼容去掉 = 的base64编码字符串的解码函数：

代码：

# -*- coding: utf-8 -*-

import base64

def safe_base64_decode(s):

    remainder = len(s) % 4
    if remainder == 0:
        return base64.b64decode(s)
    else:
        return base64.b64decode(s+remainder*b'=')

# 测试:
assert b'abcd' == safe_base64_decode(b'YWJjZA=='), safe_base64_decode('YWJjZA==')
assert b'abcd' == safe_base64_decode(b'YWJjZA'), safe_base64_decode('YWJjZA')
print('Pass')