为什么不能只靠“句号”判断断句？-CSDN博客

本文链接：https://blog.csdn.net/u013565133/article/details/147797878

我们人类在读句子的时候，会综合上下文和标点后的格式判断是不是一句话结束了。比如：

她叫李.小明是个学生。

句子：

她叫李.小明是个学生。

我们想表达的是：

“她叫李小明，是个学生。”

但中间因为错加了一个句号（“李.”），变成了：

“她叫李。” + “小明是个学生。”

这就是只靠句号就断句时会犯的错。

BERT 分词器在遇到句号时，并不知道它是不是断句符，比如：

这时候你如果只看到 token == '.' 就断句，那么它就会把“李.”当成一句话结束，这是不对的。

比如这个逻辑判断：

token_offsets[i + 1][0] - token_offsets[i][1] > 0

就可以判断出：

如果只用“是否是句号”来断句，会误伤一些“不是句子结束”的句号（比如“李.”）。加上后面有没有空格或换行这个判断，可以更准确识别真正的断句位置。