UTF-8编码及非英文字符的处理与显示

最新推荐文章于 2024-02-22 22:22:45 发布

饼干叔叔@海洋

最新推荐文章于 2024-02-22 22:22:45 发布

阅读量1.2k

点赞数 1

分类专栏： C++ 文章标签： c++

本文链接：https://blog.csdn.net/SeaBiscuitUncle/article/details/127662892

版权

本文介绍了UTF-8编码的工作原理，包括文本编码、解码的过程，以及Unicode和ASCII的关系。通过例子展示了如何将字符转换为字节序列，并解释了为何在处理多国语言时选择UTF-8编码的重要性。此外，还提到了乱码问题的原因，强调了正确匹配编码和解码方式以避免乱码的现象。

摘要由CSDN通过智能技术生成

char类型只包含1个字节的存储空间，而1个字节最多能表达256种不同的值。如果只表达英文字符及其标点符号，1个字节足够。但其它文字，比如中文，其“字符”有数万之多。在编码其它语言文字时，可能会使用到不同的多字节编码方案。

本文引用自作者编写的下述图书; 本文允许以个人学习、教学等目的引用、讲授或转载，但需要注明原作者"海洋饼干叔
叔"；本文不允许以纸质及电子出版为目的进行抄摘或改编。
1.《Python编程基础及应用》，陈波，刘慧君，高等教育出版社。免费授课视频 Python编程基础及应用
2.《Python编程基础及应用实验教程》, 陈波，熊心志，张全和，刘慧君，赵恒军，高等教育出版社Python编程基础及应用实验教程
3. 《简明C及C++语言教程》，陈波，待出版书稿。免费授课视频

1. 文本编码与解码

计算机是二进制的，它的文件和内存严格地说，只能存储和处理比特流，每个比特对应二进制的1位。由于这些二进制位按8位一组被分隔成字节，我们也可以认为计算机只能存储和处理字节流，用大白话说就是一个接一个的字节。

所以，当我们把由多个字符构成的文章存储到计算机里的时候，存入到内存或者硬盘的并不是文字本身，而是这些文字字符的对应编码。我们以ASCII码为例为说明相关过程。ASCII码是所谓美国标准信息交换代码，它用一个字节来表示一个字符。一个字节有8位，共256种组合，用来表示英文字符、数字及标点绰绰有余。

ASCII码的完整码表请见：美国信息交换标准交换代码表 - Python,C/C++ Club (codelearn.club)

为便于讨论，我们在Windows下用记事本编辑了如下内容的文件，并保存为hw.txt。
在这里插入图片描述
查看hw.txt的文件属性，可见该文件事实上占据了11个字节的空间。

回顾hw.txt的文件内容，其中的”Hello World”连同其中的空格一起，正好11个字符。

注意：000000 000013表示序号，不是文件的构成内容。