python把中文转英文_Python:在多语言(例如中文和英文)字符串上执行此“混合”split()的任何方法?...

我以为我也会展示正则表达式方法.这对我来说不合适,但这主要是因为我所看到的所有语言特定的i18n奇怪让我担心正则表达式可能对所有这些都不够灵活 – 但你可能根本不需要任何那个. (换句话说 – 过度设计.)

# -*- coding: utf-8 -*-

import re

def group_words(s):

regex = []

# Match a whole word:

regex += [ur'\w+']

# Match a single CJK character:

regex += [ur'[\u4e00-\ufaff]']

# Match one of anything else, except for spaces:

regex += [ur'[^\s]']

regex = "|".join(regex)

r = re.compile(regex)

return r.findall(s)

if __name__ == "__main__":

print group_words(u"Testing English text")

print group_words(u"我爱蟒蛇")

print group_words(u"Testing English text我爱蟒蛇")

在实践中,您可能只想编译一次正则表达式,而不是每次调用.再次,填写字符分组的细节取决于您.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值