简单介绍
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger)、命名实体识别(named entity recognizer (NER))、情感分析(sentiment analysis)等功能。
CoreNLP的中文分词基于CRF模型:
Pw(y|x)=exp(∑iwifi(x,y))/Zw(x)
其中,Zw(x)为归一化因子,w为模型的参数,fi(x,y)为特征函数。
不同于其他分词器采用B、M、E、S四种label来做分词,CoreNLP的中文分词label只有两种,“1”表示当前字符与前一字符连接成词,“0”则表示当前字符为另一词的开始——也就是前一字符为上一个词的结尾。
1,首先安装Standford NLP自然语言处理包:pip install stanfordcorenlp
2,下载Standford CoreNLP文件:
https://stanfordnlp.github.io/CoreNLP/download.html
3,下载中文模型jar包:
https://nlp.stanford.edu/software/stanford-chinese-corenlp-2018-02-27-models.jar
4,把Standford CoreNLP文件和jar包放在同一目录下
5,在python中引用模型
from stanfordcorenlp import StanfordCoreNLP
nlp=StanfordCoreNLP(r’path’,lang=’’)
nlp.ner()词性标注 nlp.pos_tag()命名实体识别