关键词（一）jieba词性标注与分词结果不一致

最新推荐文章于 2023-06-18 09:59:02 发布

PaperAgent

最新推荐文章于 2023-06-18 09:59:02 发布

阅读量2.8k

点赞数 1

分类专栏： 9 NLP 文章标签： extract_tags cut posseg jieba 结果不同

本文链接：https://blog.csdn.net/ai_1046067944/article/details/82862200

版权

9 NLP 专栏收录该内容

5 篇文章 3 订阅

订阅专栏

1、先描述下现象

>>> aa='北京时间月日晚刘强东的刑辩律师在接受澎湃新闻记者电话采访时表示刘强东涉嫌
强奸一案中的指控与证据是有出入的一旦调查结束证据将会披露给公众证明他是无罪的'

=======过滤词性，能识别“刘强东”
>>> '   '.join([k for k,w in analyse.extract_tags(aa,topK=2000,withWeight=True,allowPOS=('nr',))])
>>> '刘强东'


========未过滤词性，未能识别“刘强东”
>>> '   '.join([k for k,w in analyse.extract_tags(aa,topK=2000,withWeight=True)])
'刘强   证据   日晚   刑辩   新闻记者   澎湃   强奸   无罪   一案   指控   出入
  涉嫌   律师   公众   采访   证明   将会   披露   电话   一旦   调查   结束
接受   北京   时间   表示'
>>>

2、原因

analyse.extract_tags在判断是否过滤词性后，会选择不同的算法进行分词：

self.tokenizer = jieba.dt
self.postokenizer = jieba.posseg.dt

其实就是分词算法与词性标注算法，查了下说两者的原理都用到HMM与Viterbi算法，但是结果不一样，个人理解就是两个算法的训练集不一样。

PaperAgent

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关键词（一）jieba词性标注与分词结果不一致

1、先描述下现象&gt;&gt;&gt; aa='北京时间月日晚刘强东的刑辩律师在接受澎湃新闻记者电话采访时表示刘强东涉嫌强奸一案中的指控与证据是有出入的一旦调查结束证据将会披露给公众证明他是无罪的'=======过滤词性，能识别“刘强东”&gt;&gt;&gt; ' '.join([k for k,w in analyse.extract_tags(aa,topK=2000,...
复制链接

扫一扫