1、为什么会有base64?
早期的一些邮件服务器只支持文本信息,不支持二进制信息和文件。而base64编码后的结果都是ASCII低128位,也就是都是纯文本的,适合用电子邮件来传送二进制数据。
HTTP协议是超文本传输协议,HTTP协议是以ASCII码传输,建立在TCP/IP协议之上的应用层规范(渣渣要加上的!!).在HTTP1.1及以前标准不支持二进制传输,所以只能进行base64编码后将二进制数据转换成可见字符进行数据传输。
在ASCII码中规定,0-31、127这33个字符属于控制字符,32~126 这95个字符属于可打印字符,也就是说网络传输只能传输这95个字符,不在这个范围内的字符无法传输。
注:在ASCII码中0~31及127(共33个)是控制字符或通信专用字符(其余为可显示字符),如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)、BEL(响铃)等;通信专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;ASCII值为8、9、10 和13 分别转换为退格、制表、换行和回车字符。它们并没有特定的图形显示,但会依不同的应用程序,而对文本显示有不同的影响。 32~126(共95个)是字符(32是空格),其中48~57为0到9十个阿拉伯数字。 65~90为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。
2、为什么叫base64?
base64位编码是使用64位ASCII可见字符,将二进制数据转为成网路上可传输的可见字符。使用的64位ASCII可见字符是指:A-Z、a-z、0-9及+、/ 这个64个字符编码。
Base64的索引与对应字符的关系图。
3、Base64编码是如何将二进制数据进行编码的?
从上表可看出,最多可用6bit 来表示base64表中的64个索引位置。
在转换时,将二进制数据 每6bit分成一组。但是在ASCII中一个字符是用8bit表示,所以base64 在讲二进制数据每6位分成一组后高位补中两个0。
- 对二进制数据进行处理,每3个字节一组,一共是3x8=24bit,划为4组,每组正好6个bit。
- 如果要编码的二进制数据不是3的倍数,最后会剩下1个或2个字节怎么办?Base64用\x00字节在末尾补足后,再在编码的末尾加上1个或2个=号,表示补了多少字节,解码的时候,会自动去掉。
字符base进行base64位转码过程图示:
由上可知二进制数据经过base64编码后,数据大小上涨了33%。