编码分析

最新推荐文章于 2024-09-01 15:59:35 发布

Easy_Gemini

最新推荐文章于 2024-09-01 15:59:35 发布

阅读量2.3k

点赞数

文章标签：编码网络

本文链接：https://blog.csdn.net/Easy_Gemini/article/details/8226413

版权

本文介绍了ASCII码、非ASCII编码以及Unicode和UTF-8的编码原理。ASCII码用于英语字符，非ASCII编码如GB2312用于其他语言。Unicode是一个大型符号集合，UTF-8是其最常见的实现，使用变长编码方式。文章还讨论了Unicode与UTF-8之间的转换，以及Little endian和Big endian两种存储方式。

摘要由CSDN通过智能技术生成

编码分析技术文档

1.、ASCII码

美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。ASCII码一共规定了128个字符的编码，比如空格“SPACE”是32（十进制的32，用二进制表示就是00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。

2、非ASCII编码

英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。比如，在法语中，字母上方有注音符号，它就无法用ASCII码表示。于是，一些欧洲国家就决定，利用字节中闲置的最高位编入新的符号。比如，法语中的é的编码为130（二进制10000010）。这样一来，这些欧洲国家使用的编码体系，可以表示最多256个符号。

至于亚洲国家的文字，使用的符号就更多了，汉字就多达10万左右。一个字节只能表示256种符号，肯定是不够的，就必须使用多个字节表达一个符号。比如，简体中文常见的编码方式是GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示256x256=65536个符号。

3、Unicode

Unicode是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字“严”。具体的符号对应表，可以查询unicode.org。注意：GB2312编码、日文编

最低0.47元/天解锁文章

Easy_Gemini

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
编码分析

编码分析技术文档 1.、ASCII码美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。ASCII码一共规定了128个字符的编码，比如空格“SPACE”是32（十进制的32，用二进制表示就是00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7
复制链接

扫一扫