官网:https://stanfordnlp.github.io/CoreNLP/
【下载】纯英文处理即选择红色按钮进行下载,若需要对其它语言进行处理,下载相应安装包即可
注:Corenlp只能对单语言进行处理,不能同时处理两种以上文档。
Corenlp由JAVA编写,但存在可供Python调用的接口
【功能介绍】
CoreNLP 使用户能够为文本派生语言注释,包括标记和句子边界、词性、命名实体、数字和时间值、依赖和选区解析、共指、情感、引用属性和关系。
CoreNLP 目前支持 8 种语言:阿拉伯语、汉语、英语、法语、德语、匈牙利语、意大利语和西班牙语。
功能:
1.分词
nlp.word_tokenize('sentence')
返回结果:列表['word1','word2',...,'word n']
2.词性标注
nlp.pos_tag('sentence')
返回结果:列表[('word1','词性1'),('word2','词性2'),...,('word n','词性n')]
3. 命名实体标注
nlp.ner('sentence')
4.句法分析
nlp.parse('sentence')
返回结果:句法分析内层为词性标注,外层是与句子结构相关的标注
5.共指
【具体使用方法】
from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP('/home/lhl/software/stanford-corenlp-4.4.0')
sentence = 'i love this place'
#分词
print(nlp.word_tokenize(sentence))
#词性标注
print(nlp.pos_tag(sentence))
#命名实体识别
print(nlp.ner(sentence))
#句法依存分析
print(nlp.dependency_parse(sentence))