TCP/IP协议十一:base64编码,url/percent编码 , QP编码

1. 为什么需要编码?

通常如果一样东西需要编码,说明这样东西并不适合传输。
原因多种多样,如文件过大,包含隐私数据,不是和传输协议等等原因。

2. url/percent编码

url 编码(又叫做 percentcode 百分号编码)
关于url请看上个博客:
https://blog.csdn.net/lqy971966/article/details/105982328

URI是统一资源标识的意思,通常我们所说的Url只是URI的一种。典型Url的格式如上面所示。下面提到的Url编码,实际上应该指的是URI编码。
在这里插入图片描述

2.1 为什么需要Url编码?

  1. 原因:
    对于Url来说,之所以要进行编码,是因为Url中有些字符会引起歧义
  2. 例子:
    例如Url参数字符串中使用key=value键值对这样的形式来传参,键值对之间以&符号分隔,如/s?q=abc& ie=utf-8。如果你的value字符串中包含了=或者&,那么势必会造成接收Url的服务器解析错误,因此必须将引起歧义的&和= 符号进行转义,也就是对其进行编码。

又如,Url的编码格式采用的是ASCII码,而不是Unicode,这也就是说你不能在Url中包含任何非ASCII字符,例如中文。否则如果客户端浏览器和服务端浏览器支持的字符集不同的情况下,中文可能会造成问题。

2.2 Url编码原则

  1. Url编码的原则就是使用安全的字符(没有特殊用途或者特殊意义的可打印字符)去表示那些不安全的字符。
  2. 使用%百分号加上两位的字符——0123456789ABCDEF——代表一个字节的 十六进制形式

2.4 url编码例子

例如a在US-ASCII码中对应的字节是0x61,那么Url编码之后得到的就 是%61,我们在地址栏上输入http://g.cn/search?q=%61%62%63,实际上就等同于在google上搜索abc了。
又如@符号 在ASCII字符集中对应的字节为0x40,经过Url编码之后得到的是%40。

3. base64编码

3.1 base64编码定义

Base64不是一种加密算法,它实际上是一种“二进制转换到文本”的编码方式,它能够将任意二进制数据转换为ASCII字符串的形式,以便在只支持文本的环境中也能够顺利地传输二进制数据。
(1)base64编码:把二进制数据转为字符
(2)base64解码:把字符转为二进制数据

3.2 Base64编码由来

  1. 因为有些网络传输渠道并不支持所有字节
    例如传统的邮件只支持可见字符的传输,像ASCII码的控制字符(ASCII码包含了 128 个字符。其中前 32 个, 0-31 ,即 0x00-0x1F ,都是不可见字符。这些字符,就叫做控制字符。)就不能通过邮件传输。另外例如图片二进制流的每个字节不可能全部都是可见字符,所以就传送不了。

  2. 最好的方法就是在不改变传统协议的情况下,做一种扩展方案来支持二进制文件的传送,把不可能打印的字符用可打印的字符标识,问题就解决了。Base64编码就应运而生,

  3. Base64就是一种基于64个可打印字符来表示二进制数据的表示方法。

3.3 Base64编码表

  1. 如下图Base64编码索引表,字符选用了“A-Z 、 a-z 、 0-9、+、 / ”64个可打印字符。
    在这里插入图片描述
  2. 数字代表字符索引,这个是标准Base64标准协议规定的,不能更改。
  3. 64个字节用6个bit位就可以全部表示(32+16+8+4+2+1)就可以全部表示。这里注意一个Base64字符是8个bit,但有效部分只有右边6个bit,左边两个永远是0。

3.3 Base64编码原理(三个字节转换)

由于base64有效位只有后6位,那么怎么用6个有效bit来表示传统字符的8个bit呢?8和6的最小公倍数是24,也就是说3个传统字节可以由4个Base64字符来表示。

3.3.1 例子说明-正好三个字节

Man是三个字符,一共24个有效bit,只好用4个Base64字符来凑齐24个有效位。红框表示的是对应的Base64,6个有效位转化成相应的索引值再对应Base64字符表,查出"Man"对应的Base64字符是"TWFU"。
在这里插入图片描述
我们发现,要转换成Base64的最小单位就是三个字节,对一个字符串来说每次都是三个字节三个字节的转换,对应的是Base64的四个字节。

3.3.3 例子说明-不够三个字节怎么办?

但是转换到最后你发现不够三个字节了怎么办呢?愿望终于实现了,我们可以用两个Base64来表示一个字符或用三个Base64表示两个字符,像下图的A对应的第二个Base64的二进制位只有两个,把后边的四个补0就是了。所以A对应的Base64字符就是QQ。上边已经说过了,原则是Base64字符的最小单位是四个字符一组,那这才两个字符,后边补两个"=“吧。其实不用”=“也不耽误解码,之所以用”=",可能是考虑到多段编码后的Base64字符串拼起来也不会引起混淆。由此可见Base64字符串只可能最后出现一个或两个"=",中间是不可能出现"="的。下图中字符"BC"的编码过程也是一样的。
在这里插入图片描述

4. QP编码详解

QP编码是一种使用可打印的ASCII字符 (如字母、数字与"=")表示各种编码格式下的字符。其方法是将一个8bit的字符表示成两个16进制数,并在前面加一个“=”,共三个ASCII字符。

经过QP编码后的数据,通常是下面这个样子:
=E5=8D=8F=E8=AE=AE=E5=88=86=E6=9E=90=E4=B8=8E

https://www.cnblogs.com/protosec/p/11673332.html

例子:
hani csdn boke
qp编码:  hani=20csdn=20boke

编码工具:
http://web.chacuo.net/charsetquotedprintable

参考

https://www.cnblogs.com/leaven/archive/2012/07/12/2588746.html
https://www.cnblogs.com/xq1314/p/7909521.html
https://blog.csdn.net/qq_24357165/article/details/90748339
http://www.360doc.com/content/17/0722/14/33093582_673297752.shtml

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值