Qt下汉字转拼音，包含二级汉字

最新推荐文章于 2024-04-23 20:46:14 发布

birdman_1992

最新推荐文章于 2024-04-23 20:46:14 发布

阅读量2k

点赞数

分类专栏： Qt 文章标签：汉字转拼音 qt 编码

本文链接：https://blog.csdn.net/birdman_1992/article/details/78135021

版权

Qt 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1 基本原理

　　GB2312编码对一级汉字依照拼音首字母进行了编码范围的划分，所以只需要将汉字转为GB2312编码格式，我们就可以获取常见汉字的拼音首字母：

QString ChineseLetterHelper::GetFirstLetters(const QString &src)
{
    QString firstLetters;
    for (int i=0; i<src.length(); i++)
    {
        QString str = src.at(i);
        QTextCodec* pCodec = QTextCodec::codecForName("gb2312");
        if(!pCodec) return QChar(' ');
        QByteArray arr = pCodec->fromUnicode(str);
        wchar_t wchr = 0;

        if(arr.size() == 1)
        {
            wchr = arr.at(0) & 0xff;
        }
        else if(arr.size() == 2)
        {
            wchr = (arr.at(0) & 0xff) << 8;
            wchr |= (arr.at(1) & 0xff);
        }
        else
        {
            //qDebug() << "unknown word";
        }

        char c = Convert(wchr);
        if(c != 0)
        {
            firstLetters.append(c);
        }
    }
    return firstLetters;
}

2 以讹传讹的谬误

关于这个划分区域，网上流行的一个版本的代码如下：

char ChineseLetterHelper::Convert(int n)
{
    /*
     * GB2312码范围 (B0A1-F7FE)
     * HiByte (B0-F7) LoByte (A1-FE)
     *
     * GBK编码范围 (8140-FEFE)
     * 包含三大部分
     * 1.汉字区
     *      a. GB2312汉字区。即GBK/2
     *      b. GB13000.1扩充汉字区。包括GBK/3(CJK汉字)和GBK/4(CJK汉字和增补汉字)
     * 2.图形符号区
     *      a. GB2312非汉字区。即GBK/1 A1A1-A9FE。还有10个小写罗马数字和GB12345增补符号
     *      b. GB13000.1扩充非汉字区。即GBK/5 A840-A9A0非汉字符号、结构符...
     * 3.用户自定义区
     *
     */

    if (In(0xB0A1,0xB0C4,n)) return 'A';
    if (In(0XB0C5,0XB2C0,n)) return 'B';
    if (In(0xB2C1,0xB4ED,n)) return 'C';
    if (In(0xB4EE,0xB6E9,n)) return 'D';
    if (In(0xB6EA,0xB7A1,n)) return 'E';
    if (In(0xB7A2,0xB8c0,n)) return 'F';
    if (In(0xB8C1,0xB9FD,n)) return 'G';
    if (In(0xB9FE,0xBBF6,n)) return 'H';
    if (In(0xBBF7,0xBFA5,n)) return 'J';
    if (In(0xBFA6,0xC0AB,n)) return 'K';
    if (In(0xC0AC,0xC2E7,n)) return 'L';
    if (In(0xC2E8,0xC4C2,n)) return 'M';
    if (In(0xC4C3,0xC5B5,n)) return 'N';
    if (In(0xC5B6,0xC5BD,n)) return 'O';
    if (In(0xC5BE,0xC6D9,n)) return 'P';
    if (In(0xC6DA,0xC8BA,n)) return 'Q';
    if (In(0xC8BB,0xC8F5,n)) return 'R';
    if (In(0xC8F6,0xCBF0,n)) return 'S';
    if (In(0xCBFA,0xCDD9,n)) return 'T';
    if (In(0xCDDA,0xCEF3,n)) return 'W';
    if (In(0xCEF4,0xD188,n)) return 'X';
    if (In(0xD1B9,0xD4D0,n)) return 'Y';
    if (In(0xD4D1,0xD7F9,n)) return 'Z';
    if (In(0x00, 0x7f, n)) return n;
    return '\0';
}

　　这个转换首字母的方式简洁又漂亮！
　　但是使用后会发现有几个字是识别不出来的：

选   癣   眩   绚   靴   薛   学   穴   雪   血   勋   熏   
循   旬   询   寻   驯   巡   殉   汛   训   讯   逊   迅

　　注意代码的这2行

    if (In(0xCEF4,0xD188,n)) return 'X';
    if (In(0xD1B9,0xD4D0,n)) return 'Y';

其中0xD188和0xD1B9中间不是连续的，我们可以翻一下GB2312编码表
 GB2312编码表
可以发现这里确实是代码发生了以讹传讹的谬误。可能都拿来就用了（笑）。

    if (In(0xCEF4,0xD188,n)) return 'X';//错误代码
    if (In(0xCEF4,0xD1B8,n)) return 'X';//修正后

　　修正后这段代码就可以识别出我们常用的一级字库里的汉字了，但如果应用到项目中，一些二级字库中的比较生僻的汉字就没法识别了。

3 完美的解决方案

　　那么有没有一个比较完美点的方案呢？通过查字库表，发现还是编码分区还是有规律可循的。但确实没有如上面那样简洁的解决方法了。只能通过暴力枚举了，还好有前人做了这部分工作，我们搬来用就好了。

　　代码太长，直接放源码吧：
http://download.csdn.net/download/birdman_1992/10002293

birdman_1992

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
Qt下汉字转拼音，包含二级汉字

GB2312编码对一级汉字依照拼音首字母进行了编码范围的划分，所以只需要将汉字转为GB2312编码格式，我们就可以获取常见汉字的拼音首字母。
复制链接

扫一扫

专栏目录

Qt下汉字转拼音，包含二级汉字

1 基本原理

2 以讹传讹的谬误

3 完美的解决方案

“相关推荐”对你有帮助么？