泰文的字符拆分

泰文字符存在特殊性,如'ผ  ผู   ผู้',它们通过添加鞋子和帽子形成不同含义。UTF8编码中,一个字符可能由9个字节构成,导致字符拆分混乱。解决方法是在代码中按UTF8头3字节判断,合并连续字符。泰文这种编码设计可能是为了减少编码数量,适应其固定组合和书写习惯。
摘要由CSDN通过智能技术生成

泰文比较奇葩,比如下面3个字符:

ผ  ผู   ผู้

第一个是一个字,第二个是第一个穿鞋子,第三个是第一个穿鞋带帽。没错,他们的文字是有鞋子和帽子的。但是穿鞋带帽之后,感觉上应该就成了一个单词,显示确是一个字符。

第一个是3字节,第二个是6字节,第三个是9字节。




前情交代完毕:

我们按照UTF8来拆分字符的时候,显示会错乱,经过我手动测试发现,一个字符居然有9个字节,才能正常显示。WTF!!UTF8最长不是只有6个字节么!!

然后就发现了上面这个鞋子帽子的事情。为毛不把这3个字单独编码!!!

测试证明,虽然是UTF8,但是如果一个字符后面后鞋子或者帽子,他就会把后面的鞋子和帽子组合到一起,来显示一个字符,所以就会造成一个字符超过6个字节的情况。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值