stanfordcorenlp 斯坦福python 中文插件分词标注时返回值为空字符问题解决方案

最新推荐文章于 2024-08-08 07:31:42 发布

刘国涛

最新推荐文章于 2024-08-08 07:31:42 发布

阅读量2k

点赞数 7

分类专栏：人工智能文章标签：斯坦福中文分词斯坦福中文处理 stanfordcorenlp python使用stanfordcorenlp

本文链接：https://blog.csdn.net/weixin_42753713/article/details/81140884

版权

在使用stanfordcorenlp进行中文处理时遇到返回值为空字符的困扰，通过修改corenlp.py文件中的ner()、word_tokenize()和pos_tag()方法，实现了正确获取分词、词性标注和命名实体识别的结果。具体解决方案包括更新这3个方法，以正确解析句子中的tokens信息。

摘要由CSDN通过智能技术生成

stanfordcorenlp 在做中文处理是返回值为

['', '', '', '', '']
[('', 'NR'), ('', 'NN'), ('', 'VV'), ('', 'NR'), ('', 'PU')]
[('', 'ORGANIZATION'), ('', 'ORGANIZATION'), ('', 'O'), ('', 'GPE'), ('', 'O')]

解决方法：

找到corenlp.py 文件

找到对应的方法ner()

word_tokenize()

pos_tag()

分别修改为：

def word_tokenize(self, sentence, span=False):
r_dict = self._request('ssplit,tokenize', sentence)

tokens = [token['word'] for s in r_dict['sentences'] for token in s['tokens']]
#print('======================'+str(r_dict))
# Whether