openNLP--Sentence Detector

最新推荐文章于 2024-08-17 11:17:24 发布

向前走一步

最新推荐文章于 2024-08-17 11:17:24 发布

阅读量716

点赞数

分类专栏：自然语言处理工具包

自然语言处理工具包专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Sentence Detection

Apache OpenNLP Sentence Detector能够检测到一个句子中的标点符号是否标记着句子的末尾。在这个意义上，一个句子被定义为由两个标点符号标记的最长的空格修整的字符序列。第一个和最后一个句子违背了这个原则。第一个没有空格的字符被假定为一个句子的开始，最后一个没有空格的字符被假定为句子的结尾。

通常，Sentence Detection在句子被标记之前完成，并且在网站上的预训模型（pre-trained models）是以这种方式被训练的，但是也可以首先执行tokenization，让Sentence Detector处理已经tokenized的文本，OpenNLP Sentence Detector
无法识别基于句子内容的句子边界，一个突出的例子就是，一篇文章中的第一个句子（标题）被错误的识别为第一句的第一部分，大多数OpenNLP中的组件期望输入被分割成很多子句。

Sentence Detection API

1、Sentence Detector 可以很方便的通过他的API集成到一个应用中。在实例化Sentence Detector之前，必须首先加载sentence模型。

InputStream modelIn = new FileInputStream("en-sent.bin");

try {

SentenceModel model = new SentenceModel(modelIn);

}

catch (IOException e) {

e.printStackTrace();

}

finally {

if (modelIn != null) {

try {