为什么一个中文字符要3个char (三个字节)才能存放而1个2字节的宽字符wchar_t就能存放一个中文字符? 简要分析中文字符Unicode存储方式

最新推荐文章于 2024-09-11 11:31:11 发布

DO大木

最新推荐文章于 2024-09-11 11:31:11 发布

阅读量508

点赞数 4

文章标签： c++ visual studio

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Morris_WCG/article/details/141819553

版权

首先一个char可以被一个中文字符给初始化但无法通过cout直接输出这个字 char chr1 = '中'; (Tips: 此时鼠标指在'中'上环境显示的(int)(-10544) 为'中'的机内码与Unicode编码无关)

如果用char数组则需要三个字节来保存一个字符 char chs6[3] = "中";
我认为 问题出在这里
很多地方(帖子和GPT之类的)说大多汉字的UTF8编码是三个字节
可以看到环境提示了"中"是const char [3]类型 2个char是存放不下的

对于"文" 也是一样

然而"中文"则提示是const char [5]

所以我大胆推测 char数组保存中文字符采用的是字符串类型一定是带有'\0'结束符
因此常见(有些不常见的字下文解释)的中文字符实际上就是两个字节
也就解释了为什么一个wchar_t(2Bytes) 可以用直接存储单个中文字符并且通过wcout输出
(之所以叫宽字符是因为所有的字都要用两个字节(即一个wchar_t)来表示，不管是英文还是中文)
wchar_t wch1 = L'中'; L表示该字符是一个Unicode字符会显式该字符的Unicode编码

不加L则显式其机内码

wchar_t数组来保存则是前两个字节(前一个wchar_t)存放汉字'中',最后两个字节(后一个wchar_t)存放字符串结束符\0 L"中文" 为const wchar_t[3]就很合理了

问题又来了 刚才说常见中文字符实际是两个字节那有些不常见的比如𠀒 (我也不知道这是啥字儿)

可以看到它比'中'的Unicode码多了一位 (AI:这个字符的Unicode编码为U+20012，属于增补汉字B区) 只靠两个wchar_t就不能存放了对于一些增补汉字需要更大的空间来进行存储

再回到上面wchar_t wch2 = L'𠀒'; 虽然不会直接报错但是编译的时候产生了一个warning
warning C4066: 宽字符常量的第一个字符之外的字符被忽略实际上就是存储不下了

最后还有一个小问题 刚才char单独存储一个'中' 显示的是机内码
但是'𠀒' 显示的是(char)'\022' 不知道是什么意思 cout输出chr2的结果是??

因此对于char来说 '𠀒'其实只是一个字节? 这里编译器貌似也晕了在文本编辑器中 char数组的代码中'𠀒'只占一个位置

chs4[2]相当于一个'𠀒'和一个'\0'

没有提示错误直到编译才会报错

但就算用3个或者更多char 编译能通过也会warning
warning C4566: 由通用字符名称“\U00020012”表示的字符不能在当前代码页(936)中表示出来

所以简单总结一下就是 "一个汉字的表示需要三个字节的char变量" 这个说法有点误导
常用的中文字符就只占了2个字节需要3个字节的char是因为字符串结束符的\0

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

DO大木 CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

112万+: 周排名

10万+: 总排名

7001: 访问

: 等级

121: 积分

13: 粉丝

25: 获赞

5: 评论

33: 收藏

私信

关注

热门文章

最新评论

[Qt/C++]关于connect中使用lambda表达式“no matching function for call to...“的问题
langyifan: qt4是不可能用lambda表达式这种方式写槽函数的对吗？除非修改源码？
Qt 实现Ping功能获取到具体网络延迟的值(不使用Process)
DO大木: 我这个方法其实不算是正儿八经的Ping 通常端口参数默认为80应该就可以我还找到一个基于ICMP协议的Ping的办法这个是正经的Ping 你可以看看这个 https://www.cnblogs.com/ranjiewen/p/5704627.html
Qt 实现Ping功能获取到具体网络延迟的值(不使用Process)
wfc19941230: 请问要实现ping某个IPO的话，不需要第二个“端口”参数，怎么设置啊，比如单纯模拟cmd命令框ping 192.168.10.11，谢谢
Qt 实现Ping功能获取到具体网络延迟的值(不使用Process)
CSDN-Ada助手: 恭喜作者又发布了一篇有用的博客！学习了您的方法，我也可以在Qt中实现Ping功能了。希望作者继续分享自己的经验和技巧，可以考虑分享一些与Qt相关的高级技术，让我们可以更深入地了解Qt的应用。期待您的下一篇文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。