推荐系统基础算法之基于内容的推荐算法_基于内容的推荐一般包含哪些步骤-CSDN博客

本文链接：https://blog.csdn.net/mercies/article/details/104173258

基于内容的推荐算法

基于内容的推荐算法的基本方法可归纳为以下四个步骤

1. 特征（内容）提取，提取每个待推荐物品的特征（内容属性）。例如电影、书籍、商品的分类标签等。这些特征往往分为两种：结构化的特征和非结构化的特征。

所谓结构化特征就是特征的取值限定在某个区间范围内，并且可以按照定长的格式来表示。例如，电影类别特征，算法人员往往会和编辑提前约定好所有可选的电影类别。并把所有备选的电影都标注上这些类别标签。假如可选的电影类别有“爱情、剧情、科幻、战争、中国、美国、韩国、日本”共计8个类别（当然真实类别远不止8个）。比如，《星球大战》同时具有科幻和美国2个内容特征，那么他的结构化特征可用一个8位的二进制数表示。其中0表示该电影不具备该特征，1表示该电影具备该特征。

非结构化的特征往往无法按固定的格式表示，最常见的非结构化数据就是文章。例如对推荐文章，我们往往会把文本上的非结构特征转化为结构化特征，然后加入到模型使用。下面我们就详细介绍如何把非结构化的文字信息结构化：

例如N个待推荐文章的集合为D={d1,d2,d3,…,dN}，而所有文章中出现的词的集合模型为T={t1,t2,t3,…,tm}.将其称为字典（对于英文文本，可直接取单词；对与文章，需要先进行分词，常见的开源分词工具有结巴分词、中科院分词等）。也就是说我们有N篇待推荐的文章，而这些描述里包含了每个不同的词。我们最终要使用一个向量来表示每一篇文章，比如第j篇文章表示为dj={w1j,w2j,w3j,…,wnj}
其中w1j表示第一个词t1j在第j篇文章中权重，该值越大表示越重要；dj中其他向量的解释类似。所以，现在关键就是如何计算dj个分量的值了。有以下几种常见的计算方法：
(1) 基础统计法。例如，如果词t1出现在第j篇文章中，我们可以选取w1j为1，如果t1未出现在第j篇文章中，选取w1j为0；
(2) 词频统计法。我们也可以选取w1j为词t1的出现在第j个商品品描述中的次数。基础统计法，只考虑了词tj是否出现在某一篇文章中，并没有考虑其整体出现在的频次。例如词k是“我们”，第j篇文章包含这个词，则wkj取1，但这个词其实并没有信息量，因为很多文章都包含了“我们”，wkj都会取1。所以通常会引入词频-逆文档频率(temr frequency-inverse document frequency,简称 TF-IDF)。第j篇文章与词典里第k个词典对应的TF-IDF为：TF-IDF(tk,dj)=TF(tk,dj)*log(N/nk) ,其中TF(tk,dj)是第k个词在第j个商品描述中出现的次数，出现的次数越多，代表该词越重要，从而TF值越大。而nk是包括第K个词的文章数量，nk越少代表词越稀有，越能代表这篇文章，从而TF值越大。最终第k个词在文章j中的权重由下面的公式获得：

Wk,j=TF-IDF(tk,dj) / sqrt(所有TF-IDF(tk,dj)的平方之和)

做归一化的好处是，不同文字描述的表示向量被归一到一个量级上，便于下面步骤的操作。这时候我们已经获得了每篇文章的内容特征向量，形如 dj=(w1j,w2j,…,wnj),下一步就可以计算用户的内容偏好了。