c++读取utf-8格式中英文混合string

最近项目中用到需要给出每一个字在string中的索引,但是又因为中文字符跟英文字符长度不一样,得分开处理,

在这里记录一下。

想要达到的效果如下:

将 “测试3.1415engEng”分割开

 

代码:

std::vector <std::string> splitEachChar(const string chars)
{
    std::vector<std::string> words;
    std::string input(chars);
    int len = input.length();
    int i = 0;
    
    while (i < len) {
      assert ((input[i] & 0xF8) <= 0xF0);
      int next = 1;
      if ((input[i] & 0x80) == 0x00) {
        std::cout << "one character: " << input[i] << std::endl;
      } else if ((input[i] & 0xE0) == 0xC0) {
        next = 2;
        std::cout << "two character: " << input.substr(i, next) << std::endl;
      } else if ((input[i] & 0xF0) == 0xE0) {
        next = 3;
        std::cout << "three character: " << input.substr(i, next) << std::endl;
      } else if ((input[i] & 0xF8) == 0xF0) {
        next = 4;
        std::cout << "four character: " << input.substr(i, next) << std::endl;
      }
      words.push_back(input.substr(i, next));
      i += next;
    }
    return words;
} 
void testtemp()
{
    string input;
    while (1)
    {
        getline(cin,input);
        if(input == "exit") break;
        cout<<"--------------------------------"<<endl;
        vector <std::string> ret = splitEachChar(input);

        cout<<input<<endl;
        for(auto it : ret)cout<<it<<endl;
        cout<<"--------------------------------"<<endl;
    }
}
int main()
{
    testtemp(); 
    return 0;
}

 

参考:

https://blog.csdn.net/cy_tec/article/details/87884177

转载于:https://www.cnblogs.com/hellowooorld/p/11115612.html

C++中,可以使用std::wstring和std::wistringstream以及iswalpha函数来分割中英文混合字符串。以下是一个简单的示例: ```c++ #include <iostream> #include <string> #include <sstream> #include <locale> int main() { std::wstring str = L"这是一段English和中文混合字符串。"; std::wistringstream iss(str); std::wstring word; // 设置本地化环境,用于判断是否是中文字符 std::locale loc(""); while (iss >> word) { std::wstring eng, chn; for (wchar_t c : word) { if (iswalpha(c)) { eng += c; } else if (std::iswctype(c, std::iswctype::wctype("CJK"), loc)) { chn += c; } } std::wcout << "英文单词:" << eng << std::endl; std::wcout << "中文字符:" << chn << std::endl; } return 0; } ``` 在上面的示例中,我们首先创建一个std::wstring类型的字符串,并使用std::wistringstream把它转换为std::wstring类型的输入流。然后,我们使用std::locale设置本地化环境,以便使用iswalpha和iswctype函数来判断字符是否是英文字符和中文字符。 在循环中,我们使用std::wstring类型的word变量逐个读取输入流中的单词。对于每个单词,我们遍历它的每个字符,如果字符是英文字符,则把它加入到std::wstring类型的eng变量中,如果字符是中文字符,则把它加入到std::wstring类型的chn变量中。最后,我们输出英文单词和中文字符。 注意,上面的示例仅供参考,实际上,你需要根据你的具体需求来分割中英文混合字符串。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值