基于内容的推荐算法之关键词提取

基于内容的推荐算法是比较早期的易理解的推荐算法,其主要思想就是:我们首先给根据信息的特征给信息一些属性(可以称之为“标签”)。对于一篇文章,或者一段话它的属性就可以理解成它的关键词,这篇文章的主讲内容就是文章的关键词提取。

一、TF-IDF方法

TF(Term Frequency)词频,直观上指的是某个词在文章中的出现次数,为了避免文章长短带来的影响,对于不同的文章,词频的计算应该归一化。


文章的标签应该是文章中重要的词,他应该在文章中多次出现,于是我们需要进行词频统计。
但是,在每篇文章中,往往出现次数最多的词是“的”“是”“在”等等,这些词我们称为“停用词”,表示对结果毫无用处,必须过滤掉的词。

另外,在其他有实际意义的词中,又会遇到一些问题。比如在《中国蜜蜂养殖》这篇文章中,“中国”“蜜蜂”“养殖”三个词出现的次数一样多,但很显然,我们更想要的标签是后两个词

所以,我们需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的标签。

用统计学的语言表达,这个权重叫做"逆文档频率"(IDF),在计算IDF时需要一个语料库,用来模拟语言的使用环境。

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值