在处理文本时,会遇到需要将文本以 句子 为单位进行切分(分句)的场景,而文本又可以分为 中文文本 和 英文文本 ,处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。
分句的关键是找到合适的结束符号,比如:中文里的 。
,英文里的 .
等,而且,在这一点上中英也是有很大区分的。
这里介绍一种纯用 Python 实现的分句函数。
def cut_sentences(content):
# 结束符号,包含中文和英文的
end_flag = ['?', '!', '.', '?', '!', '。', '…']
content_len = len(content)
sentences