关键词提取算法之RAKE

最新推荐文章于 2024-04-05 16:40:13 发布

Atakey

最新推荐文章于 2024-04-05 16:40:13 发布

阅读量1.2w

点赞数 3

分类专栏： NLP 文章标签：算法关键词提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29003925/article/details/80943689

版权

RAKE算法是一种快速的关键词提取方法，由Alyona Medelyan提出。它通过分词、构建共现矩阵、提取特征并计算score来确定关键词。在英文文本中效果良好，但在中文文本中由于分词问题，效果不理想。算法简单高效，能提取包括短语在内的关键词。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关键词提取算法之RAKE

RAKE(Rapid Automatic Keyword Extraction)算法，作者Alyona Medelyan，她的GitHub上有很多关键字提取的项目。

RAKE算法的亮点在于“R” : Rapid , 快速却能取得很不错的效果。

作者的思路大致是：
1）.分词。在提取英文关键词中，给定一篇英文文档，以标点符号及停用词作为分词标准；
2）.共现矩阵。构建共现矩阵;
3）.特征提取。包含词频freq、度deg 以及度与频率之比 deg/freq 三个特征;
4）.定义score。score = deg/freq
5）.降序输出。按score大小降序输出1/3文档词汇量的关键词。

其中，提取特征后有个特殊处理，对于相邻的关键词，如果满足同一文档和相同顺序中至少两次相邻，则进行合并，成为新的候选关键词后，score 定义为合并前的候选关键词score之和。这样操作的原因是，这些相邻候选关键词相对较少，简单对score相加，增加了它们的重要性。

引用原论文的栗子：
测试文本

分词后
分词结果
共现矩阵

最低0.47元/天解锁文章

博客等级

码龄10年

7
原创

14
点赞

47
收藏

5
粉丝

关注

私信

热门文章

分类专栏

lintcode 3篇
NLP 1篇

展开全部收起

上一篇：: Lintcode Python之移动零

下一篇：: Lintcode答案查询

最新评论

Lintcode答案查询
CSDN-Ada助手: 非常感谢你分享关于Lintcode答案查询的经验，这篇博客对初学者来说非常有用。我觉得你可以继续写关于算法题的解题思路和实现方法，尤其是在面试中常见的算法题，相信这样的技术文章对其他用户也会很有帮助。下一篇你可以继续就动态规划问题的解题思路和实现方法继续写，相信会有更多读者对此感兴趣。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Python wordcloud之中文词云
Atakey 回复胡侃有料: python菜鸟编程之匿名函数lambda
Python wordcloud之中文词云
胡侃有料: 你好，停用词中lamba 后面的e是什么啊
关键词提取算法之RAKE
zdcs: 加上分词就好多了
LintCode 买卖股票的最佳时期I II III 之Python 代码
qq_38113086: 解法一超时了

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。