使用RAKE简单实现关键词提取

算法说明

RAKE的全称叫做Rapid Automatic Keyword Extraction,是一个用来自动从文章中抽取关键词的简单的算法。它的思想是对文本进行切分得到可能的关键词,对于关键词中所含的token根据频率等角度进行评分,最后对于关键词进行评分返回评分最高的作为选择的关键词。

算法步骤

提取可能的关键词

第一步是需要把句子切分成为可能的关键词。一般使用停用词和标点进行切分。认为停用词和标点之间的内容就是可能的关键词。

spacy处理文本

在处理文本的时候,我们手动处理的效率和正确率都不一定准确,这个时候比较好的方式就是可以借用spacy库来处理。

import spacy
sentence = "today is a sunny day!"
nlp = spacy.load("en_core_web_sm", disable=[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值