泰文比较奇葩,比如下面3个字符:
ผ ผู ผู้
第一个是一个字,第二个是第一个穿鞋子,第三个是第一个穿鞋带帽。没错,他们的文字是有鞋子和帽子的。但是穿鞋带帽之后,感觉上应该就成了一个单词,显示确是一个字符。
第一个是3字节,第二个是6字节,第三个是9字节。
前情交代完毕:
我们按照UTF8来拆分字符的时候,显示会错乱,经过我手动测试发现,一个字符居然有9个字节,才能正常显示。WTF!!UTF8最长不是只有6个字节么!!
然后就发现了上面这个鞋子帽子的事情。为毛不把这3个字单独编码!!!
测试证明,虽然是UTF8,但是如果一个字符后面后鞋子或者帽子,他就会把后面的鞋子和帽子组合到一起,来显示一个字符,所以就会造成一个字符超过6个字节的情况。