关键词提取算法之RAKE

RAKE算法是一种快速的关键词提取方法,由Alyona Medelyan提出。它通过分词、构建共现矩阵、提取特征并计算score来确定关键词。在英文文本中效果良好,但在中文文本中由于分词问题,效果不理想。算法简单高效,能提取包括短语在内的关键词。
摘要由CSDN通过智能技术生成

关键词提取算法之RAKE

RAKE(Rapid Automatic Keyword Extraction)算法,作者Alyona Medelyan,她的GitHub上有很多关键字提取的项目。

RAKE算法的亮点在于“R” : Rapid , 快速却能取得很不错的效果。

作者的思路大致是:
1).分词。在提取英文关键词中,给定一篇英文文档,以标点符号及停用词作为分词标准;
2).共现矩阵。 构建共现矩阵;
3).特征提取。包含词频freq、度deg 以及度与频率之比 deg/freq 三个特征;
4).定义score。score = deg/freq
5).降序输出。 按score大小降序输出1/3文档词汇量的关键词。

其中,提取特征后有个特殊处理,对于相邻的关键词,如果满足同一文档和相同顺序中至少两次相邻,则进行合并,成为新的候选关键词后,score 定义为合并前的候选关键词score之和。这样操作的原因是,这些相邻候选关键词相对较少,简单对score相加,增加了它们的重要性。

引用原论文的栗子:
测试文本

分词后
分词结果
共现矩阵

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值