关于Unicode与UTF-8的说明

最新推荐文章于 2023-04-16 23:14:13 发布

Keepgrowing

最新推荐文章于 2023-04-16 23:14:13 发布

阅读量212

点赞数

分类专栏：个人杂谈文章标签：编码 UTF-8 Unicode

本文链接：https://blog.csdn.net/Keepgrowing/article/details/90273990

版权

Unicode note

2.非ASCII码

其他的语言用128个字符是不够的，所以就需要多个字节来表示符号，但是不同的国家有不同的字母，所以就算是多字节，每个字节可能在不同的国家就代表着不同的符号，比如汉字就多达10万多个，简体中文常见的编码方式是GB2312，使用两个字节来表示一个汉字，理论上能表示65536个字符。

世界上存在着许多的编码方式，Unicode是一个很大的集合，能将世界上所有的符号收纳其中，那么乱码的问题就可以得以解决，Unicode是一个很大的集合，现在的规模可以容纳100多万个字符，每个符号的编码都是不一样的。
Unicode只是一个符号集，只规定了符号的二进制代码，并没有规定这个二进制代码应该怎么储存，也就是这个符号的存储有可能是一个字节，也有可能是两个字节，三个字节，四个字节等，所以现在就很容易出现问题: 1.如何能区别Unicode 和 ASCII码？ 2.我们知道英文字母用一个字节表示就够了，如果Unicode统一规定每个符号用两个或者三个字节来存储，就会造成每个英文字符前必然有两到三个字节全是0，这对于存储来说会造成极大的浪费。
为了解决上面的问，出现的结果：1.出现了Unicode的多种存储方式，也就是说有许多种不

关注