编码
askll
what
美国人需要保存的内容有:英文大小写、数字、标点符号、特殊符号。上述内容在计算机中以码点的形式表示。这些内容与码点的映射即位askll码集。码点的范围为0-127,在计算机中以一个字节存储。
字符与码点的映射
tip
- askll中一个字节表示一个字符。
- askll编码字节的首位是0
GBK
what
中国汉字对码点的映射
tip
-
GBK兼容askll(GBK中英文数字等美国语言的与码点的映射和askll一致);
-
GBK字节首位是1,所以 我a你 在计算机中表示方式为
unicode
what
为了不让a国家出a码、b国家出b码。国际组织出了一个统一码,unicode编码(可以容纳世界上所有语言符号)。
UTF32,统一4个字节表示一个内容。但是这样很大程度产生浪费,通信效率变低(原来美国一个字节就能表示一个字符,现在变成4个了,效率极低)。所以utf32是过去式了。
UTF-8
utf-8是unicode字符集下的一种编码方案。前面讲的都是定长字符集,utf-8是变长字符集。
utf8中英文数字标点等和askll兼容。汉字字符占3个字节。
utf-8如何将一串二级制码按照 几个字节解析
uft8编码时已经区分好了,什么字符进几字节码区。(汉字一定进入3字节码区)
总结
- askll包含数字英文标点符号特殊符号,一个字符用一个字节表示
- gbk兼容askll,一个中文使用2个字节表示,其他符号一个字节表示
- utf-8,汉字占3个字节,英文数字标点占一个字节
参考:一听就懂字符集、ASCII、GBK、UTF-8、Unicode、乱码、字符编码、解码问题的讲解_哔哩哔哩_bilibili