【Python系列专栏】第三十七篇 Python中常用内建模块(base64)

本文详细介绍了Base64编码的原理和Python中的实现方式,包括标准Base64与URL安全的Base64编码。Base64是一种将二进制数据转化为可打印文本的编码方法,常用于在网络传输中携带二进制数据。文中还提供了一个能处理去掉等号的Base64解码函数的示例。
摘要由CSDN通过智能技术生成

base64

简介

Base64是一种用64个字符来表示任意二进制数据的方法。

用记事本打开exe、jpg、pdf这些文件时,我们都会看到一大堆乱码,因为二进制文件包含很多无法显示和打印的字符,所以,如果要让记事本这样的文本处理软件能处理二进制数据,就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。


原理

Base64的原理很简单,首先,它使用总共64个字符进行编码(26个大小写字母+10个数字+加号+左斜杠):

['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']

然后,对二进制数据进行处理时,每3个字节一组,就得到 3x8=24 bit,重新划分为4组,每组正好6个bit,有 2^6=64 种取值,对应64个字符的一个,:

这样我们就可以把二进制数据的3个字节使用4个字符来表示,这就是Base64编码。采用Base64编码会把3字节的二进制数据编码为4字节(4个字符所以是4字节)的文本数据,长度会增加33%。但好处是编码后的文本数据可以在邮件正文、网页等直接显示,而不会出现乱码的情况。

如果要编码的二进制数据不是3的倍数,最后多出1个或2个字节怎么办呢? Base64编码采用 \x00 字节在末尾补充到3个字节,在编码的末尾会使用 = 号表示补了多少字节。解码的时候,会自动去掉用于补足的 \x00 字节。


Python中的实现方式

Python内置的 base64 模块可以直接进行base64的编解码:

>>> import base64
>>> base64.b64encode(b'binary\x00string')
b'YmluYXJ5AHN0cmluZw=='
>>> base64.b64decode(b'YmluYXJ5AHN0cmluZw==')
b'binary\x00string'

上面的代码中我们使用了 b 把字符串转为二进制,然后传入 b64encode() 函数进行编码,字符串长度为13个字节(注意 \x00 是一个字符,占1字节)。可以看到编码后所得字符串20个字节,并且使用两个 = 号表明编码过程中,由于13无法整除3,所以末尾补充了两个 \x00注意,= 号是算在20个字节(15÷3×4=20 bit)里面的,而不是额外放在编码后的字符串后面。

由于标准的Base64编码后可能出现字符 +/,在URL中就不能直接作为参数,所以又有一种 “url safe” 的base64编码,把字符 +/ 分别替换成 -_

>>> base64.b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd++//'
>>> base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
b'i\xb7\x1d\xfb\xef\xff'

我们也可以自定义64个字符的排列顺序,也即自定义Base64编码,不过,通常情况下没有必要这样做。注意,Base64仅仅是一种通过查表进行编码的方法,不能用于加密,即使使用自定义的编码表也不行(依然能很容易被破解)。Base64适用于小段内容的编码,比如数字证书签名、Cookie的内容等。由于 = 字符也可能出现在Base64编码中,但 = 用在URL、Cookie里面会造成歧义,所以,很多人会在Base64编码后把 = 去掉:

# 标准Base64:
'abcd' -> 'YWJjZA=='
# 自动去掉=:
'abcd' -> 'YWJjZA'

那么去掉 = 后解码要怎样完成呢?不用担心,因为Base64是把3个字节变为4个字节,所以,Base64编码的长度一定是4的倍数,解码时我们只需要在末尾加上足够的 = 把Base64字符串的长度变回4的倍数,就可以正常解码了。


小结

Base64是一种把任意二进制转换为文本字符串的编码方法,常用于在URL、Cookie、网页中传输少量二进制数据。


练习

请写一个能兼容去掉 = 的base64编码字符串的解码函数:

代码:

# -*- coding: utf-8 -*-

import base64

def safe_base64_decode(s):

    remainder = len(s) % 4
    if remainder == 0:
        return base64.b64decode(s)
    else:
        return base64.b64decode(s+remainder*b'=')

# 测试:
assert b'abcd' == safe_base64_decode(b'YWJjZA=='), safe_base64_decode('YWJjZA==')
assert b'abcd' == safe_base64_decode(b'YWJjZA'), safe_base64_decode('YWJjZA')
print('Pass')


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mrrunsen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值