tts 中如何判断字符串中是否含有中文

最新推荐文章于 2024-06-19 18:12:02 发布

原创最新推荐文章于 2024-06-19 18:12:02 发布 · 885 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#tts #字符串

技术笔记专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种用于识别和处理中英文混合文本的方法，包括去除特殊符号、转换字符类型及通过ASCII码判断中英文。该方法对于实现智能语言处理接口具有重要意义。

在语言处理中，接口只有一个，需要判别全英文、中英文，以便调用不同接口

主要工作为：

1、去除std::string 的符号包括中英文，避免误判

    vector<string> remove_symbol_list {"。", "[", "’", "#", "$", "%", "&", "(", ")", "*", "（", "）", "+", "-", "/", "／", "<", "=", ">", "@", "★", "【", "】", "^", "_", "`", "{", "|", "}", "~", "]", "+", "“", "”", "‘", "’", "…", "\"", "\\", "'"，"！", "!", "。", "？", "、", ",", "?", "；", "《", "》" ," " ," ", "，"};

这是需要处理的符号集合

处理：对符号集每个符号，是否在std::string 查找位置，为真则去除这个字符，核心代码

    size_t pos = 0;
    while ((int)(pos = str.find(pattern)) != -1)
    {
        str.erase(pos, pattern.size());
    }

2、将std::string 转成char

char *p = (char*)input.data();

data 和c_str函数主要区别是data返回的char数组没有\0 结束符

3、对所有的文字进行判断，判断中英文主要是通过ASCII码，英文字母是41-90 && 97-122，中文规则，由两个字符来表示一个中文，因此，中文两个字符的高位都是1

   char temp ;

    while(temp = *p++){
        if((temp & 0x80) && (temp & 0x80) ){
            return TTSConfig::Simplified_Chinese;
        }
    }
    
    return TTSConfig::American_English;

由此可以返回相应所需的标识符，只要有中文就判断为中文，全英文才能调用英文接口

参考：

C/C++ -- 判断字符串中存在中文