blog1 pke工具包的使用

2021SC@SDUSC

pke工具包介绍

pke是一个基于python的开源关键词keyphrase提取工具包。它提供一个端到端的关键词提取通道,其中每个组件都可以很容易的修改或扩展,以开发新的模型。pke还允许对最先进的关键短语提取模型进行简单的基准测试。
从GitHub下载pke

pip install git+https://github.com/boudinfl/pke.git

pke还需要一些外部资源依赖

python -m nltk.downloader stopwords
python -m nltk.downloader universal_tagset
python -m spacy download en_core_web_sm # download the english model

因为外网下载比较麻烦,可以直接去官网下载:https://github.com/nltk/nltk_data
在这里插入图片描述下载其中的package,重命名为nltk_data,并把它放在报错的文件夹。找到punkt目录,将punkt.zip解压。

pke的使用

pke是一个标准化的API,用于从文档中提取关键短语。如果使用另一个模型,只需要用另一个模型替换掉pke.unsupervised.TopicRank。如下:

import pke

# 初始化关键词提取模型,这里是TopicRank.
extractor = pke.unsupervised.TopicRank()

# 下载文件中的内容, 文件最好只占一行
# 格式 (例子中是.txt文档)和预处理使用spicy方式。
extractor.load_document(input='/path/to/input.txt', language='en')

# 关键候选词选择, 在TopicRank的情况下: 名词和形容词排序
# (i.e. `(Noun|Adj)*`)
extractor.candidate_selection()

# 候选词权重, 在TopicRank的情况下: 使用随机行走算法
extractor.candidate_weighting()

# N-best selection, 关键词包括10个得分最高的候选词(keyphrase, score) 元组
keyphrases = extractor.get_n_best(n=10)

pke一般实施以下几种关键词提取模型:
Unsupervised models:
Statistical models

  • TfIdf
  • KPMiner
  • YAKE

Graph-based models

  • TextRank
  • SingleRank
  • TopicRank
  • TopicalPageRank
  • PositionRank
  • MultipartiteRank

Supervised models
Feature-based models

  • Kea
  • WINGNUS
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值