stanfordcorenlp 斯坦福python 中文插件 分词 标注时 返回值为空字符问题解决方案

在使用stanfordcorenlp进行中文处理时遇到返回值为空字符的困扰,通过修改corenlp.py文件中的ner()、word_tokenize()和pos_tag()方法,实现了正确获取分词、词性标注和命名实体识别的结果。具体解决方案包括更新这3个方法,以正确解析句子中的tokens信息。
摘要由CSDN通过智能技术生成

stanfordcorenlp 在做中文处理是返回值为 

['', '', '', '', '']
[('', 'NR'), ('', 'NN'), ('', 'VV'), ('', 'NR'), ('', 'PU')]
[('', 'ORGANIZATION'), ('', 'ORGANIZATION'), ('', 'O'), ('', 'GPE'), ('', 'O')]

解决方法:

找到corenlp.py 文件

找到对应的方法ner()

word_tokenize()

pos_tag()

分别修改为:

 def word_tokenize(self, sentence, span=False):
        r_dict = self._request('ssplit,tokenize', sentence)
        
        tokens = [token['word'] for s in r_dict['sentences'] for token in s['tokens']]
        #print('======================'+str(r_dict))
        # Whether

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值