基于内容的推荐算法是比较早期的易理解的推荐算法,其主要思想就是:我们首先给根据信息的特征给信息一些属性(可以称之为“标签”)。对于一篇文章,或者一段话它的属性就可以理解成它的关键词,这篇文章的主讲内容就是文章的关键词提取。
一、TF-IDF方法
TF(Term Frequency)词频,直观上指的是某个词在文章中的出现次数,为了避免文章长短带来的影响,对于不同的文章,词频的计算应该归一化。
文章的标签应该是文章中重要的词,他应该在文章中多次出现,于是我们需要进行词频统计。
但是,在每篇文章中,往往出现次数最多的词是“的”“是”“在”等等,这些词我们称为“停用词”,表示对结果毫无用处,必须过滤掉的词。
另外,在其他有实际意义的词中,又会遇到一些问题。比如在《中国蜜蜂养殖》这篇文章中,“中国”“蜜蜂”“养殖”三个词出现的次数一样多,但很显然,我们更想要的标签是后两个词
所以,我们需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的标签。
用统计学的语言表达,这个权重叫做"逆文档频率"(IDF),在计算IDF时需要一个语料库,用来模拟语言的使用环境。