推荐系统（1）_计算用户对科幻电影的偏好分-CSDN博客

本文链接：https://blog.csdn.net/BOTAK_/article/details/89577297

推荐系统（1）—基于内容的推荐系统

在本篇文章中，我会简要概述推荐系统中最最最古老的算法--------基于内容的推荐系统。
在文章初始我们首先定义一个有关于电影的表格：

电影	爱情	剧情	科幻	战争	中国	美国
黑豹	0	1	1	1	0	1
霍比特人	0	1	0	1	0	1
从你的全世界路过	1	1	0	0	1	0
复仇者联盟4	0	1	1	1	0	1

其中0代表不属于标签特征，1代表属于标签特征

基于内容的推荐系统原理概要

假设现有用户A，用户A喜欢物品C，则基于内容的推荐系统算法会将与物品C相似的物品推荐给用户A，打个比方说：用户A喜欢电影《黑豹》，而这部电影在数据库中所赋予的标签为<科幻><美国><漫威>，则该推荐系统则会将近期发布的电影《复仇者联盟4》，因为这两部电影在数据库中的标签相似度很大，所以说该系统会认为既然用户A喜欢前者，理所当然也应喜欢后者。

基于内容的推荐系统

在此，我将基于内容的推荐系统主要步骤分为4个步骤：
1----特征的提取 ：提取出待推荐物品的的属性特征，例如上面所提到的电影标签（<种类>,<国家>,<出版公司>），我在下一个章节中会详细介绍提取属性特征的方法。
2----用户偏好的计算 ：利用一个用户过去的显式评分或者隐式操作记录，计算用户在不同特征上的偏好分数。计算偏好分数的方法，可以直接使用统计特征，即计算用户在不同标签下的分数，例如上文中的例子，用户对电影《黑豹》的篇好分数可以计算为：$[0.3,0.5,0.6,0.3,0.4,0.1,0.4,0.2]*[0,1,1,1,0,0,0,1]^T =1.6 $其中前一个矩阵代表各类属性在分类时的比重大小，而通过计算各个电影的偏好分数，选择相距较小的电影作为候选电影，另外我想说的一点是，在某些推荐的场景下，对时间比较敏感，用户的兴趣迁移比较快，在计算偏好的分的时候会增加时间因子.
3—内容的召回 ：将待推荐物品的特征与用户偏好的分匹配，取出用户最有可能喜欢的物品池。
4—物品的排序 ：按用户喜欢的物品池，可能物品池中会有很多的item。这时候我们需要对其进一步进行排序，例如与电影《黑豹》偏好分数相近的有《复仇者联盟4》与《霍比特人》，但是霍比特人在某些电影评分网站中的评分低于复仇者联盟（个人觉得不太可能），所以就推荐前者。

基于内容推荐的特征提取

推荐系统中的特征总体而言可以分为两大类：
1，结构化的特征：指的是可以按照固定格式表示的属性特征，例如上文中的电影的特征表示（用矩阵[0,1,1,1,0,0,0,1]）
2，非结构化的特征：相反，指的是不能按照固定格式表示的属性特征，最常见的数据就是文章，例如对推荐系统文章，我们往往会把文本上的非结构化特征转化结构化特征，然后加入到模型中使用。最常见的就是基础统计法，词频统计法（TF-IDF）
接下来的文章中我会简要介绍一些基础统计法与词频统计法与其他的一些推荐系统的算法。