关于字符串汉字编码的判断

最新推荐文章于 2021-07-27 12:31:13 发布

nash635

最新推荐文章于 2021-07-27 12:31:13 发布

阅读量1.2k

点赞数 1

文章标签：平台 x86

本文链接：https://blog.csdn.net/nash635/article/details/5376474

版权

C/C++ 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

首先，这个问题不严谨了，如果给定一个任意字符串，不可能断定它是否包含汉字，只有知道其编码方式才可能判断，比如已知为UTF-16，可根据UNICODE标准汉字代码点范围判断，如果是ANSI本地化编码如GB2312(1980)：双字节最高位为1，范围：1：[0xA1-0xFE]，2：[0xA1-0xFE]，7445个字符，汉字范围：1：[0xB0-0xF7]，2：[0xA1-0xFE]。
其次，GB2312，GBK，GB18030这些汉字编码方式都是字节流，像utf-8一样不存在字节序的问题，和x86等平台架构无关，如果是UTF-16和UTF-32才要考虑这个问题。

对于GBK和GB2312的编码方式汉字编码用两个字节表示，特点是第一个字节的最高位为1

X86平台采用little-endian 故高字节在高位。

如下代码将输入的中文与英文混合字符串中的英文中的大写字母改为小写字母。

简单的判定方法，不够准确，只适用于GB系列和BIG5系列编码

#include <iostream> using namespace std; void cg(char *szWord) { for (char *piterator = szWord; *piterator != 0; piterator++) { if (((*piterator) & 0x80) != 0)//优先级要注意 { piterator += 2; } else if (*piterator >= 'A' && *piterator <= 'Z') { *piterator += 32; } } } int main(void) { char src[50]; while(cin>>src) { cg(src); cout<<src<<endl; } return 0; }

更多细节待续