QT学习笔记（1）—字符编码

最新推荐文章于 2024-06-17 09:18:41 发布

HUST_OEChenHao

最新推荐文章于 2024-06-17 09:18:41 发布

阅读量1.3k

点赞数 2

分类专栏： QT 文章标签： QT 编码

本文链接：https://blog.csdn.net/hkchenhao/article/details/50949457

版权

本文介绍了字符编码的历史，从ANSI多字节编码到Unicode系列编码，包括UTF-8、UTF-16的特点。重点讲解了QT中的QString与QByteArray，阐述了两者之间的转化方法及其在不同场景下的应用。

摘要由CSDN通过智能技术生成

1 字符编码概括

1.1 ANSI多字节编码

在最早的时期，计算机只支持英文字符，那时都是用 ASCII（American Standard Code for Information Interchange，美国标准信息交换代码）编码，一个字母或符号只需要一个字节存储。随着计算机的推广应用，越来越多的国家和地区面临本地语言文字如何在计算机里使用和显示的问题。对于中文 DOS 系统和早期的中文 Windows 系统，大陆制定了国标码 GB2312，台港澳地区则使用了大五码 Big5。微软针对这些本地化字符编码采用的就是用 ANSI（American National Standards Institute，美国国家标准学会）多字节编码方式，系统里的英文和符号就使用单字节的 ASCII（0x00~0x7f），而对于汉字之类的本地化字符编码，就采用 0x80~0xFF 范围内的多个字节来表示，这样既能兼容 ASCII ，又能正常使用本地化语言文字。大陆的国标码发展了好几代，归结如下：

（1）GB2312：1980年发布，收录了7445个字符，包括6763个汉字和682个其它符号。汉字是双字节编码。
（2）GBK：1995年发布，收录了21886个符号，包括21003个汉字和883个其它符号。汉字是双字节编码。简体中文 Windows 目前默认采用这种本地化编码。
（3）GB18030-2000：2000年发布，收录了27533个汉字，汉字分为双字节编码部分和四字节编码部分。
（4）GB18030-2005：2005年发布，收录了70244个汉字，汉字也分为双字节编码部分和四字节编码部分。

1.2 Unicode系列编码

ANSI 多字节编码解决了各种语言文字的本地化使用问题，也有它自己的缺陷：各地制定的编码标准只对自己的语言文字有效，而不同语言文字的编码都是冲突的，因为大家都用 0x80~0xFF 范围字节表示自己的语言文字，而不考虑别的语言文字如何编码，冲突在所难免。比如简体中文（GBK）的文本放到繁体中文（Big5）的操作系统里，就被默认解析成繁体字编码，两种编码是冲突的，就会显示混乱的繁体字，反过来也一样。

因此国际组织制定了 Unicode 编码，也叫万国码、国际码等，这种字符编码是对全球语言统一分配编码区间，各种语言字符互相不冲突，都可以兼容使用。Unicode 编码从最初的 1.0 ，慢慢发展到今年发布的 8.0，包含的语言文字越来越多。

Unicode 编码系统，可分为编码方式和实现方式两个层次。对于国际组织发布的 Unicode 编码标准，对应的就是编码方式，最常用的是 UCS-2（Universal Character Set 2），采用两字节编码一个字符。当然国际语言文字太多，两字节不够用了，就有四字节编码方式 UCS-4。这个仅仅是标准，而不是实现，在编码实现的过程中，有些考虑兼容旧的单字节 ASCII 编码，有些不考虑兼容性；有些考虑双字节中哪个字节放在前面，哪个字节放在后面的问题，即 BOM（Byte Order Mark，字节顺序标记）的作用。因此诞生了多种国际码的实现方式，统称为 Unicode 转换格式（Unicode Transformation Format，UTF）：

（1）UTF-8：灵活的变长编码，对于 ASCII 使用一个字节编码，其他本地化语言文字用多个字节编码，最长可以到 6 个字节编码一个字符。对于汉字，通常是 3 个字