【推荐系统】推荐系统概述

最新推荐文章于 2023-12-31 01:10:38 发布

roguesir

最新推荐文章于 2023-12-31 01:10:38 发布

阅读量1.6k

点赞数 1

分类专栏：推荐算法 Book Note 推荐系统文章标签：推荐系统推荐算法

本文链接：https://blog.csdn.net/roguesir/article/details/79010513

版权

推荐算法同时被 3 个专栏收录

21 篇文章 6 订阅

订阅专栏

推荐系统

15 篇文章 5 订阅

订阅专栏

Book Note

4 篇文章 1 订阅

订阅专栏

更新时间：2018-11-24

前言

这一系列文章会来介绍推荐系统，也是我边学习边分享的过程，之前有接触过，但这次会较为系统的学习研究，所以打算把自己学到的东西整理成文章，如果有疏漏之处还请指出。
个人认为推荐算法是机器学习领域中应用最广、也是最具有商业价值的，电商领域可以发现潜在用户、增加购买率、提高商品曝广度、增加销售额，娱乐行业可以用它来寻找用户兴趣点、发现用户喜好，从而推荐相应的新闻、广告、电影等增加点击率，可以说，现在的生活每时每刻都存在推荐，可见推荐系统的应用之广。

基于内容的推荐

基于内容的推荐算法更多关注的是商品本身的属性，比如在电商领域中，用户浏览了一本书，那么通过对这本书各个属性的分析，可以包括作者、书籍的研究方向、定价、大致内容，从而找到与这本书相似度较大的进行推荐，比如一用户浏览了周志华教授的《机器学习》，通过对这个行为进行分析，可能最终给这个用户推荐李航博士的《统计学习方法》他会很喜欢，甚至发生购买行为，这种基于对商品本身属性进行匹配度比对的推荐就是基于内容的推荐。基于内容的推荐常用于文本的推荐，算法的核心思想在于比对内容。
假设有一个文本数据集，包含很多个文件，设词 $k_i$ 在文件 $d_j$ 中的权重为 $w_{ij}$ ，定义权重向量 $(w_{c1},\cdots,w_{ck})$ ，其中， $w_ci$ 表示第 $k_i$ 个词对用户 $C$ 的重要程度，那么，如何来衡量这个重要程度呢？这就需要引入相似度这个概念。
上面已经将文本用向量表示了，现在计算文本的相似度实际上就是计算两个高维向量的相似度，两个向量的相似度可以用向量夹角的余弦值来表示，如下：
$u(c,s)=\cos(\vec {w_c}, \vec{w_s})=\frac{\vec {w_c} \cdot \vec{w_s}}{||\vec {w_c}|| \cdot ||\vec{w_s}||}=\frac{\sum_{i=1}^{K}w_{i,c}w_{i,s}}{\sqrt{\sum_{i=1}^{K}w_{i,c}} \sqrt{\sum_{i=1}^{K}w_{i,s}}} \tag{11}$

基于协同过滤的推荐

协同过滤的思想则是考虑“近邻"，这个在生活中很常见，比如物以类聚，人以群分，因为一群人他们的爱好相同，活着价值观相近，总之就是能找到一些共同点，所以他们才会聚在一起，那么，如果我们可以在已知偏好的用户集合中，找到与未知用户A相似的用户，将以往这些相似用户的购买记或者浏览记录推荐给未知用户A，可能对于A来讲就是有用的推荐，这就是协同过滤的主要思想，核心在于找到未知样本的相似样本，刚说的是对于人购买商品，其实反过来对于商品也同样适用的。
从上面的介绍中，我们又需要对样本进行距离测度了，即对样本进行相似度度量，那么这里我们如何选取距离测度呢？接着分析，还是买书的例子，假设用户A经常在某电商网站上面购买书籍，曾经买过或浏览过《纳兰词评注》、《纳兰词点评》、《李煜词评注》、《人生若只如初见》，用户B曾经买过或浏览过《纳兰词点评》、《李煜词评注》、《人生若只如初见》，那么我们有理由相信用户B大概率也会喜欢《纳兰词评注》这本书，因为通过上面的叙述我们认为A和B很像，相似度很高，这里面用到的距离度量就可以认为：把每本书是否浏览或购买当作一个向量，发生浏览或购买行为则记为1，否则记为0，这就形成了一个很大的打分矩阵，考虑每个用户的相似度时，具有相同购买行为的次数越多，也就越相近，这类距离测度选择多样，常用的距离测度是欧几里得距离，公式如下：
$dist(X,Y)=\sqrt{\sum_{i=1}^{n}|X_i-Y_i|^2} \tag{12}$
除此之外，还有以下几种距离测度：
（1）Jaccard相似度
$J(A,B)=\frac{|A\bigcap B|}{|A \bigcup B|} \tag{13}$
（2）余弦相似度
$\cos(\theta)=\frac{{\vec a}^T \cdot \vec b}{|\vec a| \cdot |\vec b|} \tag{14}$
（3）Pearson相似度
$Pearson(X,Y)=\frac{\sum_{i=1}^{n}(X_i-\mu_X)(Y_i-\mu_Y)}{\sqrt{\sum_{i=1}^{n}(X_i-\mu_X)^2} \sqrt{\sum_{i=1}^{n}(Y_i-\mu_Y)^2}} \tag{15}$