Base64编码与解码 ——Python实现

最新推荐文章于 2024-08-07 12:13:09 发布

吉吉有梦想

最新推荐文章于 2024-08-07 12:13:09 发布

阅读量2.4k

点赞数 1

分类专栏： Python基础（梳理自己的框架）

本文链接：https://blog.csdn.net/qq_42009978/article/details/107749577

版权

Python基础（梳理自己的框架）专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

1. 引言
2. Base64简介
3. 预习知识
3. Base64编码
- 3.1 个人理解
- 3.2 代码实现
4. Base64解码
- 4.1 个人理解
- 4.2 代码实现

1. 引言

记录学习base64编码与解码的思考以及通过Python实现。

2. Base64简介

这里请参考文章：一文彻底看懂Base64原理
声明： 本文的图片均来自上述文章。
我的理解就是，将待编码字符集合与二进制{0, 1}之间相互的等价转换情况。
注意：base64是一种可以算是公开的加密方法，只能加密保护某些数据。

3. 预习知识

本小节主要介绍字节、二进制、ASCII码等知识，如果很熟悉可以跳过。

3.1 字节

数据存储是以“字节”（Byte）为单位，数据传输大多是以“位”（bit，又名“比特”）为单位，一个位就代表一个0或1（即二进制），每8个位（bit，简写为b）组成一个字节（Byte，简写为B），是最小一级的信息单位。
8bit(位)=1Byte(字节)

3.2 二进制与字节

因为计算机通信和存储的时候都bai是以010101这样的二进制数据为基础du的，这儿的一个0和1占的地方就叫bit(位),即一个二进制位。

3.3 ASCII码

ASCII码中：一个英文字母（不bai分大小写）占一个字节的空间，du一个中文汉字占两个字节的空间。
ASCII码对照表：ASCII码对照表

3. Base64编码

这里着重讲我自己的理解思路，原理还是参考文章开头提到的链接。
本文用的字符集

base64_charset = string.ascii_uppercase + string.ascii_lowercase + string.digits + '+/'

编码过程如下：

3.1 个人理解

将三个字节（字符）作为一组，也就转换成3✖️8 = 24 bit，如果不足三个字节（24bit），则补0。
再将上边的24bit转换成四组，即每组6bit。
将第二步得到的四组数据高位补0，实现完整的4个字节，即4✖️8 = 32 bit，每个字节表示base64的字符集索引。
将每个扩展后的新的8bit用作表示整数的索引，对应字符集的一个字符，这就是编码后的值。
最后处理在步骤1中不足3字节的情况，缺一个字节索引，即为0时候，补一个=，缺两个就补两个=。
注意： 高位补0，可以让原数不变，是高位。

3.2 代码实现

str的相关用法

def encode(origin_str):

    # 将字符串转化为字节
    origin_bytes = str(origin_str).encode()

    # 将每一位bytes转换为二进制字符串，高位补0，这里涉及str的format用法
    # 可以百度，也可以参考https://blog.csdn.net/qq_42009978/article/details/107739538
    str_bytes = ['{:0>8}'.format(str(bin(b)).replace('0b', '')) for b in origin_bytes]

    resp = ''
    # 3个一组，整除3，看总共有多少组
    group_nums = len(str_bytes) // 3
    # 看余数剩几个字符
    remain_str_nums = len(str_bytes) % 3

    integral_part = str_bytes[0: 3 * group_nums]
    while integral_part:
        # 取三个字节，以每6比特，转换为4个整数
        tmp_bytes = ''.join(integral_part[0:3])
        tmp_bytes = [int(tmp_bytes[x: x + 6], 2) for x in [0, 6, 12,  18]]
        # 取对应base64字符
        resp += ''.join([base64_charset[i] for i in tmp_bytes])
        integral_part = integral_part[3:]

    if remain_str_nums:
        # 补齐三个字节，每个字节补充 00000000
        remain_part = ''.join(str_bytes[3 * group_nums:]) + (3 - remain_str_nums) * '0' * 8
        tmp_bytes = [int(remain_part[x: x + 6], 2) for x in [0, 6, 12, 18]][: remain_str_nums + 1]  # 这里是对数组进行截取，为了防止产生不必要的数据
        # 剩余1字节可构造2个base64字符，补充==；剩余2字节可构造3个base64字符，补充=
        resp += ''.join([base64_charset[i] for i in tmp_bytes]) + (3 - remain_str_nums) * '='

    return resp

4. Base64解码

解码的过程实际上是编码的一个逆过程，理解了编码，解码也就对应二声了。

4.1 个人理解

判定给出的字符串是不是一个合法的经过Base64编码的字符串。
对每一个base64字符取下标索引，并转换为6位二进制字符串。
取4个6位base64字符，作为3个字节。
最后将不足四个的base64字符，进行其他处理。

4.2 代码实现

# 判定是否合法
def isValidBase64_str(base64_str):
    if len(base64_str) % 4:
        return False
    for b in base64_str:
        if b not in base64_charset and b is not '=':
            return False
    return True

def decode(base64_str, isFormat = '0'):

    if not isValidBase64_str(base64_str):
        return bytearray

    # 对每一个base64字符取下标索引，并转换为6位二进制字符串
    base64_bytes = ['{:0>6}'.format(str(bin(base64_charset.index(s))).replace('0b', '')) for s in base64_str if
                    s != '=']

    resp = bytearray()

    group_nums = len(base64_bytes) // 4

    remain_str_nums = len(base64_bytes) % 4

    integral_part = base64_bytes[0: 4 * group_nums]
    while integral_part:
        # 取4个6位base64字符，作为3个字节
        tmp_str = ''.join(integral_part[0: 4])
        tmp_str = [int(tmp_str[x: x + 8], 2) for x in [0, 8, 16]]

        for i in tmp_str:
            resp.append(i)

        integral_part = integral_part[4: ]

    if remain_str_nums:
        remain_part = ''.join(base64_bytes[group_nums * 4:])
        tmp_str = [int(remain_part[i * 8: (i + 1) * 8], 2) for i in range(remain_str_nums - 1)]

        for i in tmp_str:
            resp.append(i)

    output_str = resp.decode()

    if isFormat == '1':
        # 相应的处理
        print(isFormat)

    return output_str