转码解码小记

最新推荐文章于 2023-06-25 20:18:16 发布

baiyu666

最新推荐文章于 2023-06-25 20:18:16 发布

阅读量454

点赞数

文章标签： unicode base64 字符串

本文链接：https://blog.csdn.net/by13161761799/article/details/109000624

版权

编码

ascii
unicode
base64

编码方式

utf-8
utf-16

常见编码函数

encodeURI
encodeURIComponent
escape
btoa

ascii

ascii码（美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统。一个ascii码是一个字节，一个字节由8位二进制组成，基础ascii码能表示128个符号，后来进行扩展，能表示256个符号，这些符号在西文中够用，但是无法表示汉字，因此相继有了GB2312、GBK等汉字编码

unicode

基于ascii码，产生的统一的编码，Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节，只需要把高字节全部填为0就可以。unicode是无符号字符集，utf-8和utf-16是编码方式。

base64

Base64就是一种基于64个可打印字符来表示二进制数据的方法。Base64要求把每三个8Bit的字节转换为四个6Bit的字节（38 = 46 = 24），然后把6Bit再添两位高位0，组成四个8Bit的字节，也就是说，转换后的字符串理论上将要比原来的长1/3。可编码范围：数字、52个大小写字母和+/。
编码原理：

拆分目标字符串（s 1 3）
转化成对应的ascii （115 49 51）
转化成对应的二进制（01110011 00110001 00110011）
拆分成6为一组（011100 110011 000100 110011）
高位补0 （00011100 00110011 00000100 00110011）
转为为十进制数字并查表（28 51 4 51 -> c z E z）

utf-8 和 utf-16区别

utf编码方式保存的是字符对应数字的二进制，utf-16是以两个字节也就是16位二进制存储，utf-8存储的位数是可变的，会根据数字的大小而改变。

utf-8会解析每个字节，根据首位bit判断该字节是独立的字节，还是某个二三字节的单元，utf-16就不存在这个问题，统一按两字节处理。utf-8例如：

0xxxxxxx,如果以0开头后面是啥就不用管了XX代表任意bit，就表示把一个字节做为一个单元，就跟ASCII完全一样
110xxxxx 10xxxxxx 如果是这样的格式，则把两个字节当一个单元
1110xxxx 10xxxxxx 10xxxxxx 如果是这种格式则是三个字节当一个单元

优缺点：utf-8涉及到传输效率，utf-16可能存在空间浪费的问题

utf编码原理

编码规则：

单字节，字节的第一位是0，后7位是这个符号的unicode码。对于字母来说，utf-8编码和ASCII码是相同的
对于n字节的符号，第一个字节的前n位都是1，第n+1位为0，后面字节的前两位为10，剩下的位数为这个符号的unicode码。
Unicode符号范围 | UTF-8编码方式
(十六进制) | （二进制）
--------------------±--------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

以汉字“严”为例，演示如何实现UTF-8编码：
已知“严”的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此“严”的UTF-8编码需要三个字节，即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后，从“严”的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，“严”的UTF-8编码是“11100100 10111000 10100101”，转换成十六进制就是E4B8A5。

encodeURIComponent

不转译 A-Z a-z 0-9 - _ . ! ~ * ’ ( )
编码后，它输出符号的utf-8形式，并且在每个字节前加上%

encodeURI

不转译比encodeURIComponent多 ; , / ? : @ & = + $ #

escape（废弃）

不转译 @* _ + - . /
汉字等转化为 %u${unicode码（十六进制）}

btoa

用于创建一个 base-64 编码的字符串。
该方法使用 “A-Z”, “a-z”, “0-9”, “+”, “/” 和 “=” 字符来编码字符串

encodeURI和escape编码区别

首先都会转化成unicode码，escape直接输出，encodeURI会转化成utf-8形式，再输出16进制

baiyu666

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
转码解码小记

编码asciiunicodebase64编码方式utf-8utf-16常见编码函数encodeURIencodeURIComponentescapebtoaasciiascii码（美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统。一个ascii码是一个字节，一个字节由8位二进制组成，基础ascii码能表示128个符号，后来进行扩展，能表示256个符号，这些符号在西文中够用，但是无法表示汉字，因此相继有了GB2312、GBK等汉字编码unicode基于ascii
复制链接

扫一扫