C++里将string类字符串（utf-8编码）分解成单个字（可中英混输）

最新推荐文章于 2024-01-23 11:49:41 发布

shifuren

最新推荐文章于 2024-01-23 11:49:41 发布

阅读量703

点赞数

本文链接：https://blog.csdn.net/shifuren/article/details/89145820

版权

　1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

　　2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

　　如表：

1字节	0xxxxxxx
2字节	110xxxxx 10xxxxxx
3字节	1110xxxx 10xxxxxx 10xxxxxx
4字节	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

void Dictionary::splitWord(const string & word, vector<string> & characters)
{
int num = word.size();
int i = 0;
while(i < num)
{
int size = 1;
if(word[i] & 0x80)
{
char temp = word[i];
temp <<= 1;
do{
temp <<= 1;
++size;
}while(temp & 0x80);
}
string subWord;
subWord = word.substr(i, size);
characters.push_back(subWord);
i += size;
}
}

中文在utf-8编码中是三个字节的

shifuren

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
C++里将string类字符串（utf-8编码）分解成单个字（可中英混输）

　1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。　　2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。　　如表：1字节 0xxxxxxx 2字节 110x...
复制链接

扫一扫