首先,我使用了Python 3 grapheme库来解决我的问题. (有关字形的更多信息,请参见this article).但是令我感到惊讶的是,没有专门的库,Python 3无法做到这一点……
我之所以使用字形符号,是因为经过许多网页搜索和阅读StackOverflow问题,我无法让Python 3在一系列泰语字符中返回正确数量的字符位置.
例如,这是一个泰文字符的UTF-8字符串:
thai_str = '????????????????? ???????????????????????????'
我使用术语“字符位置”来标识一行/一串泰语字符中的单个位置.这是因为字符位置可能包含泰国辅音,在某些情况下还包括该辅音上方或下方的元音或音调标记.在Unicode字符串中,辅音加上元音或音调标记在上方/下方占据单个字符位置. (某些泰国辅音字母的左侧,右侧或右侧可能还带有元音.这些元音占据了自己的角色位置.)
例如,按照从示例字符串生成的以下顺序,项目2和7是元音,项目10是音调标记.每个字符都使用UTF-8字符串中的单独字节,但不占用自己的字符位置.项目3和8是元音,它们位于辅音的左侧,因此占据字符位置.
01: ?
02: ?
03: ?
04: ?
05: ?
06: ?
07: ?
08: ?
09: ?
10: ?
...
45: ?
尝试确定示例字符串中的字符位置时,len(thai_str)返回45.这是不正确的.我能够获得正确数量的字符位置的唯一方法是使用grapheme.length(thai_str)获得35.
我还使用了编码来获得以下内容:
b'\xe0\xb8\xaa\xe0\xb8\xb5\xe0\xb9\x82\xe0\xb8\x8a\xe0\xb8\x84\xe0\xb8\x94...
(计算似乎在每个泰语字符之前的xe0实例并不像是正确的方法…)
所以-在我的示例字符串中计算字符位置的唯一方法是使用Python 3库(例如字素)吗?