python计算两字符串中的位置_在Python 3中,计算泰语字符的位置

首先,我使用了Python 3 grapheme库来解决我的问题. (有关字形的更多信息,请参见this article).但是令我感到惊讶的是,没有专门的库,Python 3无法做到这一点……

我之所以使用字形符号,是因为经过许多网页搜索和阅读StackOverflow问题,我无法让Python 3在一系列泰语字符中返回正确数量的字符位置.

例如,这是一个泰文字符的UTF-8字符串:

thai_str = '????????????????? ???????????????????????????'

我使用术语“字符位置”来标识一行/一串泰语字符中的单个位置.这是因为字符位置可能包含泰国辅音,在某些情况下还包括该辅音上方或下方的元音或音调标记.在Unicode字符串中,辅音加上元音或音调标记在上方/下方占据单个字符位置. (某些泰国辅音字母的左侧,右侧或右侧可能还带有元音.这些元音占据了自己的角色位置.)

例如,按照从示例字符串生成的以下顺序,项目2和7是元音,项目10是音调标记.每个字符都使用UTF-8字符串中的单独字节,但不占用自己的字符位置.项目3和8是元音,它们位于辅音的左侧,因此占据字符位置.

01: ?

02: ?

03: ?

04: ?

05: ?

06: ?

07: ?

08: ?

09: ?

10: ?

...

45: ?

尝试确定示例字符串中的字符位置时,len(thai_str)返回45.这是不正确的.我能够获得正确数量的字符位置的唯一方法是使用grapheme.length(thai_str)获得35.

我还使用了编码来获得以下内容:

b'\xe0\xb8\xaa\xe0\xb8\xb5\xe0\xb9\x82\xe0\xb8\x8a\xe0\xb8\x84\xe0\xb8\x94...

(计算似乎在每个泰语字符之前的xe0实例并不像是正确的方法…)

所以-在我的示例字符串中计算字符位置的唯一方法是使用Python 3库(例如字素)吗?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值