# 泰语字符串字符分割 --- UTF-8编码格式

1.泰语编码格式

泰语用的编码格式是:ISO 8859-11,这个是Latin编码系列,是从"ISO-8859-1"发展过来的,采用的是8bit一个字,所以泰语中的英文字母或者数字还是1个字节,而泰语中类似于"ฉันแค่เดินผ่านมา"的编码,每个文字的ASCII码是从0xE0开始,每个字符占据3个字节。

2.字符ASCII码拆分

"ฉั" ----> "E0 B8 89 E0 B8 B1"
"น" ----> "E0 B8 99"
......
发现这个规律后,在csdn上看到了一篇文章,他把核心的内容提了下,根据他的内容我实现了下代码,大致上可以把泰语能够按照单词划分出来

3.上代码

int str_thai_char_len(const char *src)
{
    unsigned char ch = *src;
    if(ch != 0xE0)
        return 1;
    int len = 3;
    const char *tempSrc = src + len;
    ch = *tempSrc;
    while(ch == 0xE0)
    {
        unsigned char ch1 = *(src + len + 1);
        unsigned char ch2 = *(src + len + 2);
        if((ch1 == 0xb8 && (ch2 == 0xb1 || (ch2 >= 0xb3 && ch2 <= 0xba)))  
            ||(ch1==0xb9 && ch2>=0x87 && ch2<=0x8e))
        {
            len += 3;
            ch = *(tempSrc + len);
            continue;
        }
        break;
    }
    return len;
}

转载于:https://www.cnblogs.com/zjzyh/p/4337172.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值