推荐系统与应用随记-CSDN博客

推荐系统两个著名的模型：CF和LFM

数学定义

寻求解决信息过载的思路

系统结构

用户画像刻画一些用户维度的信息，例如这个人的学历，经济收入状况等等，以后无论是用户推荐，分类，排序，都会有用户画像的相关应用。

评定标准

均方误差（MSE）均方根误差（RMSE）

对式子除以T，使得其与测试样本T无关。得到用户在每个物品上平均的一个差异度。

你能拿到用户对商品的一个评分，例如：一颗星，两颗星或者直接的一个分数值。

用户有没有点，以及用户在这个页面的停留时间，视频看没看等等，有这么个是与否的用户行为在，根据这些行为也是可以建立准确度的评判标准。

提升准确率可以减少topN的量，可以只推荐一篇或者两篇，这样可以很好的拟合用户的兴趣，它很有可能会点。问题是用户如果还想看这两篇以外的呢，那其他的就没有召回来。所以准确率和召回率这两项是互相影响的。好的推荐要尽量的使得这两项有个比较好的结果。另外推荐系统对precision的要求更高一些。

ROC AUC

I代表全部商品的量。所有推荐的商品覆盖了全部商品的多少。

从信息论的角度来看就是：1000w的商品中，每个商品被推荐的次数除以总次数。

如果电商有1000w的商品，你推荐的商品只覆盖了其中20w，那这推荐就是有问题的。

1/2|R(u)|(|R(u)-1|)表示从推荐列表中任意取两个的可能取法。除以它表示任意两个的平均相似度。 1-平均相似度表示任意两个的平均差异度。差异度就是多样性有多高。

s(i,j)的计算方法，例如：在电商的体系当中，他会有类目这个属性，建立的向量中也会包含这个分类属性。如果两个商品品类不同的话，可以把相似度设置为0

新颖度和惊喜度这两个标准不太好评定，需要通过用户反馈和调研来获取。

推荐系统一般推荐的是热门信息，大部分用户都是趋同的

基于内容的推荐

对每一份资料建立向量，对每个要推荐的内容(item)进行挖掘，每个item都是一个向量，假设有4000个词的词表，每个词在item向量中会占据一个固定的位置，如果这个词在这个文档中出现过，我们就会去计算这个词在文档中的重要程度，然后把重要程度填在相应的位置，每个文档都会产生一个向量。

对用户也建立一份相应的资料，资料的建法是用户之前总会阅读过一些资料，那么这些看过的资料应该也会有向量，即4000个词对应相应程度的向量。然后对这些看过的资料向量做一个平均或者加权平均。或者是将这些资料的向量先揉在一块建立一个向量。

用用户的向量和文档的向量去求一个相似度。通常用用户的向量和那些用户没有看过的文档资料进行比对，挑出来一些比较接近的文档。

协同过滤

协同过滤一种基于近邻的算法，意思是我需要去找到和我最接近的邻居，根据这些邻居来做决策。

1.基于近邻去做综合的判定。
2.近邻怎么找？依托于用户在共同商品上的行为，即A,B用户在a,b,c,d,e 5个商品上的得分，去判定这两个用户之间是不是近邻，如果是近邻那么他们有多近。

找近邻？现在有商品a,b 用户A,B,C,D,E 用户分别对商品a,b都有一个打分。基于各自用户对商品的打分向量来计算商品的相似度。

相似度/距离定义

Jaccard相似度一般用于TopN推荐，要么用户看了要么没看。

基于物品的协同过滤

R_xi预测用户x对商品i的评分。

通过计算找回来了最接近的五个物品I(i1,i2,i3,i4,i5)

1号电影如果要推荐给5号用户，预测1号电影推荐给5号用户的得分。

这里的权重（用户的打分）取的是TopN的权重，没有把所有的电影拿过来，原因是在电商的体系当中，如果你要推荐商品，电商总共的商品也许有上千万，那这个时候如果每一个商品都拿来比对，显然是不可行的，所以我们只会取TopN这一部分，比如上图只取了3号和5号两部电影，评估一下把1号电影推荐给5号用户会得多少分！！