在对中文分字处理上,希望能够吧所有的中文分开,同时希望英文和数字不能被拆分,我选择使用正则表达式的形式实现,具体python3代码如下
def seg_char(sent):
"""
把句子按字分开,不破坏英文结构
"""
# 首先分割 英文 以及英文和标点
pattern_char_1 = re.compile(r'([\W])')
parts = pattern_char_1.split(sent)
parts = [p for p in parts if len(p.strip())>0]
# 分割中文
pattern = re.compile(r'([\u4e00-\u9fa5])')
chars = pattern.split(sent)
chars = [w for w in chars if len(w.strip())>0]
return chars