使用pke模块抽取中文关键短语所踩的坑

最新推荐文章于 2025-03-17 16:32:21 发布

qq_28935065

最新推荐文章于 2025-03-17 16:32:21 发布

阅读量1.3k

点赞数 4

分类专栏：自然语言处理文章标签：关键词抽取

本文链接：https://blog.csdn.net/qq_28935065/article/details/124011619

版权

自然语言处理专栏收录该内容

11 篇文章

订阅专栏

本文档介绍了如何安装pke库，包括通过git下载源码手动安装，以及解决tensorflow与transformers版本不兼容的问题。同时，针对spacy中文模型下载困难，提供了从官网下载后本地安装的方法。此外，还演示了pke的MultipartiteRank和TopicRank的使用，特别指出stoplist参数必须为非空列表。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.首先是pke的安装。

github上给出的安装方法是：pip install git+https://github.com/boudinfl/pke.git，但是安装不成功，因此直接从git上下载pke，然后解压，进入pke路径，再执行：python setup.py install

2.spacy模块中文模型的下载安装。

使用pke的时候，依赖spacy模块，内部需要做分词，词性标注或者解析等，因此需要安装spacy，spacy的安装很简单，直接pip install spacy就可以，但是需要下载对应的模型，对于中文来说，我下载的是zh_core_web_trf，直接使用python spacy download zh_core_web_trf，发现一直下载不成功，换一种方法，先去官网下载模型，然后执行：pip install /你的下载目录/zh_core_web_trf-3.2.0.tar.gz

3.pke代码使用。

import pke
text = "3月21日，美国国务卿布林肯发表声明，宣布美方将对所谓侵犯人权的中国官员实施签证限制。对此，在今天（31日）的中国外交部例行记者会上，发言人汪文斌宣布，美方借口所谓人权问题炮制恶劣谎言，并以此为由干涉中国内政，抹黑中国形象，打压中方官员。这些行径毫无道德底线，严重违反国际法和国际关系基本准则，中方对此坚决反对。为维护中国主权安全发展利益，保护中方人员正当合法权益。根据中国反外国制裁法有关规定，中方决定对在涉华人权问题上炮制谎言，推动出台对华制裁、损害中方利益的美方官员对等采取签证限制。"
extractor = pke.unsupervised.MultipartiteRank()
extractor.load_document(input=text, language='zh',normalization='none')
extractor.candidate_selection()
extractor.candidate_weighting()
extractor.get_n_best(n=20)

在执行 extractor.load_document(input=text, language='zh',normalization='none')，报错：ValueError: tensorflow.__spec__ is None，这个是因为tensorflow 和transformers的版本不匹配造成的，tensorflow为1.14.0并且transformers版本3.4.0 是可以正常执行的

4.使用pke 中TopicRank和MultipartiteRank

extractor.load_document(input=text, language='zh',normalization='none',stoplist = []),stoplist这个参数是必须的，而且不能为空列表，否则会报错：TypeError: 'NoneType' object is not iterable

参考文献