日常随笔——如何判断字符是汉字、字母、还是拼音？在C++中又该如何判断？

Overcautious

已于 2022-06-16 18:12:57 修改

阅读量2.7k

点赞数 2

分类专栏：日常随笔 C++ 文章标签： c++ 开发语言

于 2022-06-16 11:24:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44700810/article/details/125301871

版权

本文介绍了如何在C++中判断字符串中包含的字符类型，涉及到ASCII、Unicode、UTF-8等编码方式。通过理解UTF-8编码规则，可以实现对UTF-8数据的decode，同时探讨了为何GB2312和GBK等双字节编码仍然被使用的原因。

摘要由CSDN通过智能技术生成

最近遇到一个问题，需要判断一个字符串中是否包含汉字、拼音、普通字符，于是就简单记录下来。

首先，如何判断这些，绕不开操作系统中的编码，常见的有三种：ASCII、Unicode、UTF-8

ASCII

这是最早的一种编码方式，因此只将英文字符编码进去了，也就是一些大小写字母和一些符号。但是，由于后续计算机扩展到各个国家，各国的语音也需要编码，因此ASCII编码（00000000 - 01111111）127位就不够用了，于是就制定了其他编码方式。
各国都有各自的一套编码方式，比如中国制定了GB2312编码，日本把日文编入了Shift_JIS里等等，这样造成的结果就是会发生冲突，因此，Unicode应运而生。

Unicode

Unicode把所有符号都统一到一套编码里，这样就不会再有乱码问题了（Unicode 兼容了ASCII码）。 Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

ASCII和Unicode的区别

ASCII编码是1个字节，而Unicode编码通常是2个字节，举例如下。

字母 A 用ASCII编码是十进制的65，二进制的01000001；
字符 0 用ASCII编码是十进制的48，二进制的00110000，注意字符 ‘0’ 和整数 0 是不同的࿱

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。