Unicode 和 UTF-8、UTF-16、UTF-32之间的关系

最新推荐文章于 2022-12-21 14:21:21 发布

老九君

最新推荐文章于 2022-12-21 14:21:21 发布

阅读量493

点赞数

分类专栏： C语言相关 C++语言相关 Java相关

本文链接：https://blog.csdn.net/LaoJiuJun/article/details/98503989

版权

本文介绍了Unicode编码字符集和UTF-8、UTF-16、UTF-32字符集编码之间的关系。Unicode旨在解决乱码问题，统一所有语言的编码。UTF-8是一种可变长度的编码方式，节省空间，适合英文为主的文本；UTF-16通常用两个字节表示字符，适合中文等占多数的情况。在计算机内存中，通常使用Unicode，存储和传输时转为UTF-8。

摘要由CSDN通过智能技术生成

看到大家对Unicode编码非常感兴趣，特别整理这篇补充内容给大家。

1、首先区别编码字符集（一个字符集）和字符集编码（表示一种编码规则）：

Unicode是编码字符集，而UTF-8, UTF-16, UTF-32是字符集编码。
因为计算机智能处理二进制数字，如果要处理文本、图像、声音等就必须先转换为二进制才能处理，这个过程就是编码过程。早期的计算机在设计时采用8个比特(bit,位)作为一个字节(byte)，所以一个字节能够表示的最大整数就是255（二进制11111111 = 十进制的255），如果要表示更大的整数，就需要使用更多的字节。比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295。

由于计算机是美国人发明的，因此最早只有127个字符被编码到计算机中，也就是英文字母的大小写、数字和一些符号。这个编码被称为ASCII编码。

随着计算机在世界范围的推广使用，要处理中文为代表的非字母语系，显然一个字节就不够用了，至少需要两个字节，而且还不能和ASCII编码冲突。所以，中国制定了GB2312编码。可以想得到的是，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里。

各国有各国的标准，就会不可避免地出现冲突，造成的结果就是，在多语言混合的文本中，显示出来会有乱码。

因此，Unicode应运而生。Unicode把所有的语言都统一到一套编码中，这样就不会再有乱码问题了。

Unicode标准也在不断发展࿰

最低0.47元/天解锁文章

老九君

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Unicode 和 UTF-8、UTF-16、UTF-32之间的关系

看到大家对Unicode编码非常感兴趣，特别整理这篇补充内容给大家。1、首先区别编码字符集（一个字符集）和字符集编码（表示一种编码规则）：Unicode是编码字符集，而UTF-8, UTF-16, UTF-32是字符集编码。因为计算机智能处理二进制数字，如果要处理文本、图像、声音等就必须先转换为二进制才能处理，这个过程就是编码过程。早期的计算机在设计时采用8个比特(bit,位)作为一个字节...
复制链接

扫一扫

专栏目录