前言
在一些英文处理的业务中,有时候会面临一些场景:判断这个单词是否在当前句子中,但英文相对比较棘手的问题是有很多词汇的变形如单复数、过去时、现在进行时、将来时等等,这样采用简单的字符串匹配操作肯定是不合适了,因此一直需要一个nlp分词器将句子中词汇分开、词性还原等。
正好找到了一个斯坦福提供的nlp java工具包,可以有多种语言的:词性标注(part-of-speech (POS) tagger)、命名实体识别(named entity recognizer (NER))、情感分析(sentiment analysis)等功能,我们拿来做词性还原是有点大材小用了。
使用stanford nlp
下面我们就来使用一下这个工具,先引入相应的包,使用maven如下:
<!--stanford nlp core-->
<dependency>
<groupId>edu.stanford.nlp</groupId>
<artifactId>stanford-corenlp</artifactId>
<version>3.9.2</version>
</dependency>
<!--stanford nlp model-->
<dependency>
<groupId>edu.stanford.nlp</groupId>
<artifactId>