python中文分字

Autuming

于 2019-01-15 09:41:45 发布

阅读量7.1k

点赞数 5

分类专栏： python

本文链接：https://blog.csdn.net/renyuanfang/article/details/86487367

版权

python 专栏收录该内容

24 篇文章

订阅专栏

在对中文分字处理上，希望能够吧所有的中文分开，同时希望英文和数字不能被拆分，我选择使用正则表达式的形式实现，具体python3代码如下

def seg_char(sent):
    """
    把句子按字分开，不破坏英文结构
    """
    # 首先分割 英文 以及英文和标点
    pattern_char_1 = re.compile(r'([\W])')
    parts = pattern_char_1.split(sent)
    parts = [p for p in parts if len(p.strip())>0]
    # 分割中文
    pattern = re.compile(r'([\u4e00-\u9fa5])')
    chars = pattern.split(sent)
    chars = [w for w in chars if len(w.strip())>0]
    return chars