推荐系统（一）:概述

最新推荐文章于 2024-02-06 13:17:14 发布

小白的学习之旅

最新推荐文章于 2024-02-06 13:17:14 发布

阅读量724

点赞数

分类专栏： RS 文章标签：推荐系统 python ml

本文链接：https://blog.csdn.net/Miraitowa/article/details/109171660

版权

RS 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

推荐系统（一）:概述

一、推荐算法的理解

如果说互联网的目标就是连接一切，那么推荐系统的作用就是建立更加有效率的连接，推荐系统可以更有效率的连接用户与内容和服务，节约了大量的时间和成本。

如果把推荐系统简单拆开来看，推荐系统主要是由数据、算法、架构三个方面组成。
数据提供了信息。数据储存了信息，包括用户与内容的属性，用户的行为偏好例如对新闻的点击、玩过的英雄、购买的物品等等。这些数据特征非常关键，甚至可以说它们决定了一个算法的上限。
算法提供了逻辑。数据通过不断的积累，存储了巨量的信息。在巨大的数据量与数据维度下，人已经无法通过人工策略进行分析干预，因此需要基于一套复杂的信息处理逻辑，基于逻辑返回推荐的内容或服务。
架构解放了双手。架构保证整个推荐自动化、实时性的运行。架构包含了接收用户请求，收集、处理，存储用户数据，推荐算法计算，返回推荐结果等。有了架构之后算法不再依赖于手动计算，可以进行实时化、自动化的运行。例如在淘宝推荐中，对于数据实时性的处理，就保证了用户在点击一个物品后，后续返回的推荐结果就可以立刻根据该点击而改变。一个推荐系统的实时性要求越高、访问量越大那么这个推荐系统的架构就会越复杂。

二、推荐系统的整体框架

在这里插入图片描述

三传统推荐系统结构图

在这里插入图片描述

四深度学习推荐系统结构图

在这里插入图片描述

五推荐系统常用指标

用户满意度

用户是推荐系统中非常重要的参与者,他们的满意度也直接决定了推荐系统的好坏.但是用户满意度这个指标无法离线计算,只能通过用户调查或者在线实验获得.这里在线实验一般是通过用户的线上行为统计得到的,比如电商场景中,用户如果购买了推荐的商品说明一定程度上他们是满意的,因此可以通过购买率度量用户的满意度,与购买率类似的点击率,用户停留时间和转化率等指标都可以用来度量用户的满意度.

预测准确度

预测准确度是用来度量用户的实际行为与推荐系统预测结果的准确度,该指标是最重要的离线评价指标,因为可以通过离线计算得到.下面是预测准确度最常用的两个指标.

评分预测

预测用户对物品的评分行为成为评分预测,评分预测模型通过对用户的历史物品评分记录进行建模,进而得到用户的兴趣模型,然后使用该模型预测用户未未见过商品的评分.评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算.对于测试集中的一个用户 $u$ 和物品 $i$ ,令 $r_{ui}$ 是用户 $u$ 对物品 $i$ 的实际评分,而 $\hat{r_{ui}}$ 是推荐模型预测出的评分,那么RMSE可以定义为: $\sqrt{\frac{\sum_{u,i \in T}(r_{ui} - \hat{r}{ui})^2}{|T|}}$ MAE定义为: $\frac{\sum{u,i \in T}|r_{ui} - \hat{r}_{ui}|}{|T|}$ RMSE由于存在平方项，使得使得用户真实评分与推荐系统预测评分相差较大的用户加大了惩罚，即该评测指标对系统要求更加的苛刻

TopN推荐

推荐系统在给用户推荐物品的时候,往往会给用户一个列表的推荐物品,这种场景下的推荐成为是TopN推荐,该推荐方式最常用的预测准确率指标一般是精确率(precision)和召回率(recall),令 $R (u)$ 为通过推荐模型得到的推荐列表, $T (u)$ 为用户在实际场景中(测试集)的行为列表.

精确率(precision): 分类正确的正样本个数占分类器判定为正样本的样本个数比例(这里 $R (u)$ 相当于是模型判定的正样本) $\frac{\sum_{u \in U}|R(u) \cap T(u)|}{\sum_{u \in U}|R(u)|}$

召回率(recall): 分类正确的正样本个数占真正的正样本个数的比例(这里的 $T (u)$ 相当于真正的正样本集合)

$\frac{\sum_{u \in U}|R(u) \cap T(u)|}{\sum_{u \in U}|T(u)|}$

有时候为了更加全面的评估TopN推荐,通常会选取不同的推荐列表长度计算多组精确率与召回率然后分别绘制出精确率曲线和召回率曲线,需要注意的是这里并不是PR曲线,感兴趣的可以了解一下PR曲线相关的知识.

覆盖率

覆盖率是用来描述一个推荐系统对物品长尾的发掘能力,一个简单的定义可以是:推荐系统所有推荐出来的商品集合数占总物品集合数的比例.但是对于相同的覆盖率,不同物品的数量分布,或者说是物品的流行度分布是可以不一样的.为了更好的描述推荐系统挖掘长尾的能力,需要统计不同物品出现次数的分布.如果所有的物品都出现在推荐列表中,并且出现的次数都差不多,那么推荐系统发掘长尾的能力就很好.所以可以通过研究物品在推荐列表中出现的次数分布来描述推荐系统挖掘长尾的能力,如果这个分布比较平缓说明推荐系统的覆盖率比较高,而如果分布比较陡说明推荐系统的覆盖率比较低.下面分别使用信息熵和基尼系数来定义覆盖率.

信息熵定义覆盖率: 其中 $p (i)$ 是物品 $i$ 的流行度除以所有物品流行度之和 $-\sum_{i=1}^n p(i) logp(i)$ 基尼系数定义覆盖率: 其中 $i_j$ 是按照物品流行度p从小到大排序的物品列表中第 $j$ 个物品 $G=\frac{1}{n-1} \sum_{j=1}^{n}(2j-n-1)p(i_{j})$

多样性

人的兴趣爱好通常是比较广泛的,所以一个好的推荐系统得到的推荐列表中应该尽可能多的包含用户的兴趣,只有这样才能增加用户找到感兴趣物品的概率.度量推荐列表中物品的多样性换句话说就是度量推荐列表中所有物品之间的不相似性,可以通过不同的相似性函数来度量推荐列表中商品的相似性,比如商品基于内容的相似,基于协同过滤的相似,这样就可以得到不同角度的多样性.令函数 $s (i, j)$ 为物品 $i$ 和物品 $j$ 的相似性,那么用户推荐列表的多样性可以定义为: $Diversity(R(u))=1-\frac{\sum_{i,j \in R(u)}s(i,j)}{\frac{1}{2}|R(u)|(|R(u)|-1)}$ 推荐系统整体的多样性可以定义为所有用户推荐列表多样性的平均值: $\frac{1}{U} \sum_{u\in U}Diversity(R(u))$

新颖性

满足推荐的新颖性最简单的方法就是给用户推荐他们之前没有看过的物品,但是每个用户没见过的物品数量是非常庞大的,所以一般会计算推荐物品的平均流行度,流行度越低的物品越有可能让用户觉得新颖,因此,如果推荐结果中的物品平均热门程度比较低说明推荐的结果就可能比较新颖.

六召回

召回层在推荐系统架构中的位置及作用

在推荐系统架构中召回层与排序层是推荐系统的核心算法层，而将推荐过程分成召回层与排序层主要是基于工程上的考虑，其中召回阶段负责将海量的候选集快速缩小为几万到几千的规模；而排序层则负责对缩小后的候选集进行精准排序。所以在召回阶段往往会利用少量的特征和简单的模型对大规模的数据集进行快速的筛选，而在排序层一般会使用更多的特征和更加复杂的模型进行精准的排序。

下面是召回层与排序层的特点

召回层：

**待计算的候选集合大、计算速度快、模型简单、特征较少，尽量让用户感兴趣的物品在这个阶段能够被快速召回，即保证相关物品的召回率

**排序层：**首要目标是得到精准的排序结果。需要处理的物品数量少，可以利用较多的特征，使用比较复杂的模型。

在设计召回层时，“计算速度”和“召回率”其实是矛盾的两个指标，为提高“计算速度”，需要使召回策略尽量简单一些；而为了提高“召回率”，要求召回策略尽量选出排序模型所需要的候选集，这也就要求召回策略不能过于简单。在权衡计算速度和召回率后，目前工业界主流的召回方法是采用多个简单策略叠加的“多路召回策略”

多路召回策略

所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。

如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。
在这里插入图片描述

Embedding召回

在当前的主流推荐系统中，Embedding的身影已经无处不在，从一定意义上可以说，把Embedding做好了，整个推荐系统的一个难题就攻克了，下面会从什么是Embedding，常见的Embedding技术有哪些，以及如何用Embedding做召回进行一个简单的总结。

Embedding是什么？

Embedding其实是一种思想，主要目的是将稀疏的向量(如one-hot编码)表示转换成稠密的向量，下图直观的显示了one-hot编码和Embedding表示的区别于联系，即Embedding相当于是对one-hot做了平滑，而onehot相当于是对Embedding做了max pooling。

常见的Embedding技术有哪些？

目前主流的Embedding技术主要可以分为三大类。

text embedding
image embedding
graph embedding
在推荐系统领域，text embedding技术是目前使用最多的embedding技术，对于文本特征可以直接使用该技术，对于非文本的id类特征，可以先将其转化成id序列再使用text embedding的技术获取id的embedding再做召回。

常见的text Embedding的技术有：

静态向量：word2vec, fasttext, glove
动态向量：ELMO, GPT, BERT

对于image embedding其实主要是对于有图或者视频的特征，目前计算机视觉模型已经发展的比较成熟了，对于图像与视频的识别都有效果比较好的模型，大部分都是卷积模块通过各种连接技巧搭建的高效模型，可以使用现有的预训练模型提取图像或者视频的向量特征，然后用于召回。

对于社交网络相关的推荐，进行推荐的用户与用于之间或者商品之间天然的存在某种复杂的图结构的关系，如何利用图中节点与节点之间的关系对其进行向量化是非常关键的，在这种场景下基于序列的text embedding和基于卷积模型的image embedding都显得力不从心，在这样的背景下Graph Embedding逐渐在推荐系统中流行起来。经典的Graph Embedding模型有, Deep Walk, Node2Vec，LINE以及比较新的阿里巴巴2018年公布的EGES graph Embedding模型。

七总结

本篇博客写的较为简单，当然相对基础，在我的学习印象中AUC需要在0.5-0.7之间这个水平中越高越好，而高于0.7和低于0.5都存在问题。具体的后面得再去学习一下。近期也读了几篇与推荐系统相关的论文。一篇是Multi-component-Graph-Convolution-Collaborative，另一篇则是Knowledge-Aware Document Representation for News Recommendations。这两篇论文均使用到注意力机制。在两篇论文中一篇是关注GNN在推荐系统上的应用也就是在上面中的embedding，使用到了很多关于线性代数的变换以及关于item协同过滤以及user协同过滤算法以及node注意力机制。对于工业级推荐系统反而会因为数据集过大而未使用注意力机制，在工业级推荐系统中更加希望通过一个大的框架来解决一系列问题。在后面希望能补上关于这部分基础知识的详细困惑以及问题，还有这两篇论文的一个阅读笔记。