推荐系统算法解析：从非定制到定制化-CSDN博客

本文链接：https://blog.csdn.net/qq_40959369/article/details/108355487

推荐大体上可以分为两种：非定制化推荐和定制化推荐。

非定制化推荐 即什么热门推荐什么，什么被浏览、购买得多就推荐什么。所谓的“热门”即是经过大数据统计而得来的，所以非定制化推荐可以说是一种基于统计学推荐。

定制化推荐 即个性化推荐，针对不同用户的历史行为记录中分析用户对产品的偏好，猜测用户喜欢什么，从而进行推荐。

非定制化推荐的弊端很明显，热门产品并不总是每个用户喜欢的，可应用的场景也相对较少。相反，定制化推荐对不同用户的个性化推荐就有了相对明显的优势。因此，目前市场上定制化推荐算法层出不穷。

一、定制化推荐算法分类

定制化推荐算法大体上可以细分为以下五类，而前两种（基于内容推荐、基于协同过滤）则是最为常用的。其中，协同过滤算法又是推荐系统中的明星算法。那么，协同过滤到底是什么意思呢？协同过滤侧重于从大数据（集体智慧）中寻找某些隐含的模式（我也不太懂，网上都解释不清楚！）

（1）基于内容（content based）：根据用户的历史数据衡量用户对物品的喜好程度，计算物品相似度，推荐相似物品。

（2）基于协同：基于协同过滤的推荐算法又可分为以下三类：

基于内容的协同过滤：根据所有用户对物品或者信息的评价，发现物品和物品之间的相似度，然后根据用户的历史偏好信息将类似的物品推荐给该用户。

基于用户的协同过滤：寻找与目标用户有相同喜好的邻居，然后根据目标用户的邻居的喜好产生向目标用户的推荐。

基于模型的协同过滤：基模型的协同过滤推荐就是基于样本的用户喜好信息，训练一个推荐模型，然后根据实时的用户喜好的信息进行预测推荐。根据训练推荐模型的方式的不同又可以分为以下四种：

a、基于分类、回归和聚类的模型

b、基于图的模型（Personal Rank）

c、基于矩阵分解的模型（LFM、CF）

d、基于神经网络的模型（item2vec）

（3）基于关联规则：通过关联规则挖掘找到不同商品在销售过程中的相关性，推荐相关物品。

（4）基于效用：

（5）基于知识：

二、实现的四种推荐算法

1)content based(基于内容)

2)LFM(基于矩阵分解模型的协同过滤)

3）CF(基于矩阵分解模型的协同过滤)

4)Personal Rank(基于图模型的协同过滤)

2.1基于矩阵分解的隐语义模型算法LFM(latent factor model)

LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户和物品。通过如下公式计算用户u对电影i的兴趣：

preferenceu,i=rLFMu,i=puTqi=f=1Fpu,fqi,f

(1)

定义P矩阵是user-factor矩阵，矩阵值pu,k表示的是用户 u对隐含特征 f的偏好度；Q矩阵式factor-item矩阵，矩阵值qi,k表示的是隐含特征 f在电影 i中的权重，权重越高该item的特征性越强。如下图：

图 1

我们用监督学习的思想来得到pu和qi。在设定好隐含特征的个数F之后，和可以用随机正态分布初始化，并采用梯度下降进行迭代。迭代时需要计算损失函数loss:

loss=(u,i)∈D(ru,i-rLFM(u,i))2

( 2)

ru,i是训练样本的label，也就是说如果用户对电影感兴趣，那么r(u,i)=1，否则r(u,i)=0。rLFM(u,i)是模型预估的用户对电影的偏好度，也就是前面所说的模型产出的参数和转置的乘积。这里的D是所有的训练样本的集合。

可以看到如果模型预估的数值与label越接近的话，损失函数数值越小，反之则越大。这里为了防止过拟合，增加了正则化项，并进行展开，得到如下：

loss=(u,i)∈D(ru,i-rLFM(u,i))2+α|pu|2+α|qi|2

(3)

这里α是正则化系数，这里采用的是L2正则化，正则化目的是为了让模型更加简单化，防止由于和过度拟合训练样本中的数据使模型的参数过度复杂，造成泛化能力减弱。求出损失函数loss后，分别对pu,f、qi,f求偏导：

∂loss∂pu,f=-2ru,i-rLFM(u,i)qi,f+2αpu,f

(4)

∂loss∂qi,f=-2ru,i-rLFM(u,i)pu,f+2αqi,f

(5)

得到偏导后，采用梯度下降的方法更新pu,f和qi,f的值：

pu,f=pu,f-β∂loss∂pu,f

(6)

qi,f=qi,f-β∂loss∂qi,f

(7)

其中，β是learning rate，即学习率。

2.1.3算法评估

对于算法的性能，我们将采用均方根误差进行评估，均方根误差越小，算法性能越好。

其中真实评分，为预测评分，n为样本个数。

哪些参数的设定会影响最终的模型效果？

1.负样本的选取

比起正样本，负样本的数量是非常多的。因为展现给用户的电影比用户评分的电影要多的多，而用户未评分的电影都属于负样本。因此，我们要有一定的负采样规则，我们选取那些充分展现（即对于所有用户而言，具有高评分的电影）而用户没有评分或评分较低的电影作为负样本。然后，为了保证正负例样本的均衡，将负例样本按评分排序，取前n个与正例样本数目相同的负例样本。比如，一个用户有100个正例样本，那么同样也取100个负样本来保证正负样本的均衡。

2.隐含特征个数F、正则参数、学习率