1. 手写规则,通过标点符号分句
我的写法参考自https://github.com/bojone/bert4keras/blob/master/bert4keras/snippets.py#L336。原函数除直接分句之外,还可以实现按照标点符号在指定长度下进行chunk(指定长度,到该长度就找标点符号进行截断)
def text_segmentate(text, maxlen, seps='\n', strips=None):
"""将文本按照标点符号划分为若干个短句
"""
text = text.strip().strip(strips)
if seps and len(text) > maxlen:
pieces = text.split(seps[0])
text, texts = '', []
for i, p in enumerate(pieces):
if text and p and len(text) + len(p) > maxlen - 1:
texts.extend(text_segmentate(text, maxlen, seps[1:], strips))
text = ''
if i + 1 == len(pieces):
text = text + p
else:
text = text + p + seps[0]
if text:
texts.extend(text_segmentate(text, maxlen, seps[1:], strips))
return texts
else:
return [text]
sentences=text_segmentate(original_text,1,'。:();:“”,,')
2. 引号内算一句话
代码来自https://github.com/GLZ1925/-
#coding:utf-8
import re
text = "“喂!路明非!你给我站住!”叔叔追了出来,在走廊尽头冲他低吼。路明非实在没时间让他兴师问罪了,只好说:“叔叔我真有事得先走,什么事以后再说!”叔叔可不听他说,跑过来一把抓住他的手:“你小子给我说老实话?是不是在外面惹事了?我看外面都是警车还有流氓,他们都是冲你来的?”“没……没有……”路明非想辩解。“你小子真不是骗我们说上学其实跑日本来混黑道了吧?”叔叔瞪着他。“真不是,这事儿一时没法解释……”叔叔从屁股后面摸出金利来的钱包,打开来夹层里有几张日圆钞票,大概一万多的样子。他把那张万圆大钞塞进路明非手里:“叔叔不知道你惹了什么麻烦,你们年轻人见的世面大,有些事不愿告诉我们大人,我问也没用。我以前也惹过事跑过路,跑路身上千万得有现金!银行卡信用卡跑车都没用!”"
def normal_cut_sentence(text):
text = re.sub('([。!?\?])([^’”])',r'\1\n\2',text)#普通断句符号且后面没有引号
text = re.sub('(\.{6})([^’”])',r'\1\n\2',text)#英文省略号且后面没有引号
text = re.sub('(\…{2})([^’”])',r'\1\n\2',text)#中文省略号且后面没有引号
text = re.sub('([.。!?\?\.{6}\…{2}][’”])([^’”])',r'\1\n\2',text)#断句号+引号且后面没有引号
return text.split("\n")
def cut_sentence_with_quotation_marks(text):
p = re.compile("“.*?”")
list = []
index = 0
length = len(text)
for i in p.finditer(text):
temp = ''
start = i.start()
end = i.end()
for j in range(index, start):
temp += text[j]
if temp != '':
temp_list = normal_cut_sentence(temp)
list += temp_list
temp = ''
for k in range(start, end):
temp += text[k]
if temp != ' ':
list.append(temp)
index = end
return list
if __name__ == '__main__':
print(cut_sentence_with_quotation_marks(text))
输出:
['“喂!路明非!你给我站住!”', '叔叔追了出来,在走廊尽头冲他低吼。', '路明非实在没时间让他兴师问罪了,只好说:', '“叔叔我真有事得先走,什么事以后再说!”', '叔叔可不听他说,跑过来一把抓住他的手:', '“你小子给我说老实话?是不是在外面惹事了?我看外面都是警车还有流氓,他们都是冲你来的?”', '“没……没有……”', '路明非想辩解。', '“你小子真不是骗我们说上学其实跑日本来混黑道了吧?”', '叔叔瞪着他。', '“真不是,这事儿一时没法解释……”', '叔叔从屁股后面摸出金利来的钱包,打开来夹层里有几张日圆钞票,大概一万多的样子。', '他把那张万圆大钞塞进路明非手里:', '“叔叔不知道你惹了什么麻烦,你们年轻人见的世面大,有些事不愿告诉我们大人,我问也没用。我以前也惹过事跑过路,跑路身上千万得有现金!银行卡信用卡跑车都没用!”']
3. spacy包
其实也是按标点符号分句
import spacy
nlp = spacy.load("zh_core_web_sm")
nlp.add_pipe('sentencizer', name='sentence_segmenter', before='parser')
doc = nlp(original_text)
for sent in doc.sents:
print(sent.text) #就是这句话
4. ltp包
http://ltp.ai/docs/quickstart.html#id4
pip install ltp
from ltp import StnSplit
sents = StnSplit().split("汤姆生病了。他去了医院。")
# [
# "汤姆生病了。",
# "他去了医院。"
# ]
sents = StnSplit().batch_split(["他叫汤姆去拿外衣。", "汤姆生病了。他去了医院。"])
# [
# "他叫汤姆去拿外衣。",
# "汤姆生病了。",
# "他去了医院。"
# ]
5. 相关分句工作参考资料
(2004 SIGHAN) Segmentation of Chinese Long Sentences Using Commas
(作者是韩国人。感觉怪怪的)
先对逗号根据上下文进行分类,然后根据分类结果进行分句
(2011 ACL) Chinese sentence segmentation as comma classification:也是对逗号进行分类
(2013 International Conference on Asian Language Processing) Recognizing Chinese Elementary Discourse Unit on Comma:也是对逗号进行分类
(2021 ACL-IJCNLP Findings) Better Chinese Sentence Segmentation with Reinforcement Learning
因为中英文分句边界不同,所以中英翻译效果会受损。本文用强化学习训练分割policy,来将中文文本切割为可以独立翻译的片段,以提升翻译质量。
这篇工作中的分句和传统意义上的分句不太一样,它更多是关注翻译领域所应用的一整个文本单位在多语言上的对应关系。