基于内容的推荐算法之关键词提取

最新推荐文章于 2025-02-11 00:26:49 发布

網上邻居

最新推荐文章于 2025-02-11 00:26:49 发布

阅读量5.6k

点赞数 2

分类专栏：信息检索文章标签：信息检索 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jhonve/article/details/80684223

版权

基于内容的推荐算法通过关键词提取确定信息属性。本文介绍了TF-IDF方法，包括词频归一化、停用词过滤和逆文档频率概念，用于识别文章的重要关键词。并展示了使用jieba分词器对中文文章进行关键词提取的代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于内容的推荐算法是比较早期的易理解的推荐算法，其主要思想就是：我们首先给根据信息的特征给信息一些属性(可以称之为“标签”)。对于一篇文章，或者一段话它的属性就可以理解成它的关键词，这篇文章的主讲内容就是文章的关键词提取。

一、TF-IDF方法

TF(Term Frequency)词频，直观上指的是某个词在文章中的出现次数，为了避免文章长短带来的影响，对于不同的文章，词频的计算应该归一化。

文章的标签应该是文章中重要的词，他应该在文章中多次出现，于是我们需要进行词频统计。
但是，在每篇文章中，往往出现次数最多的词是“的”“是”“在”等等，这些词我们称为“停用词”，表示对结果毫无用处，必须过滤掉的词。

另外，在其他有实际意义的词中，又会遇到一些问题。比如在《中国蜜蜂养殖》这篇文章中，“中国”“蜜蜂”“养殖”三个词出现的次数一样多，但很显然，我们更想要的标签是后两个词

所以，我们需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的标签。

用统计学的语言表达，这个权重叫做"逆文档频率"（IDF），在计算IDF时需要一个语料库，用来模拟语言的使用环境。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。