推荐系统（Recommender System）笔记 03：推荐系统的重要思想

最新推荐文章于 2022-02-16 11:16:17 发布

MYJace

最新推荐文章于 2022-02-16 11:16:17 发布

阅读量1.4k

点赞数 1

分类专栏：学习笔记推荐系统文章标签：深度学习推荐系统人工智能

本文链接：https://blog.csdn.net/MYJace/article/details/120198122

版权

学习笔记同时被 2 个专栏收录

41 篇文章

订阅专栏

推荐系统

6 篇文章

订阅专栏

本文详细探讨了推荐系统中的特征工程，强调了构建特征工程时应尽可能保留有用信息并摒弃冗余。用户行为数据、用户关系数据、属性标签类数据、内容类数据和上下文信息是推荐系统常用特征。特征处理包括对连续型和类别型特征的标准化、离散化和Embedding。推荐系统的召回层策略包括多路召回和Embedding召回，而实时性对于推荐系统至关重要，涉及特征实时性和模型实时性更新。最后，文章介绍了冷启动问题的解决策略，如基于规则、主动学习、迁移学习和探索与利用机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

推荐系统（Recommender System）笔记 03：推荐系统的重要思想

推荐系统的特征工程
推荐系统召回层 (Recall) 的主要策略
- 召回层 (recall) 和排序 (sort) 层的功能特点
- - 多路召回策略
  - Embedding 召回策略
推荐系统的实时性
- 实时性对于推荐系统的重要性
根据实际需求构建模型
冷启动问题
探索与利用

主动学习

这里就需要了解 “主动学习” 和 “被动学习” 之间的区别。

被动学习： 在已有的数据集上建模，学习过程中不对数据集进行更改，也不会加入新的数据，学习的过程是 “被动的”
主动学习： 不仅利用已有的数据集进行建模，而且可以 “主动” 发现哪些数据是最急需的，主动向外界发出询问，获得反馈，从而加速整个学习的过程，生成更全面的模型

主动学习的流程为：每次迭代中，系统对每个潜在 “查询 (Query)” 进行评估，看哪个查询能使加入该查询后的模型损失最小，就将该查询发送给外界，得到反馈后更新模型 M。

在这里插入图片描述

上面伪代码中的 Loss(q_j) 代表 E(Loss(M’))。M’ 是加入查询 q_j 之后的新模型，Loss(q_j) 的含义是新模型 M’ 的损失的期望。

用一个例子来理解：

上图中每个 node 表示一部电影，横纵坐标分别表示电影两个特征维度，Node 颜色的深浅表示用户为电影的打分，所有影片被聚类为 a, b, c, d 四类。可以看到，当前所有电影未被打分，这是一个标准的冷启动场景。主动学习的目标在于尽可能快地定位所有电影可能的打分。在此情况下，使用主动学习，最有可能推荐的影片应为聚类 d 的中心点，因为这样就能得到用户对于整个聚类 d 的一个反馈，获得的期待收益最大，损失最小

主动学习的过程完全遵循 “行动 - 反馈 - 状态更新” 的强化学习循环。它的学习目的就是在一次又一次的循环迭代中，让推荐系统尽量快速地度过冷启动状态，为用户提供更个性化的推荐结果。

迁移学习

迁移学习是在某领域知识不足的情况下，迁移其他领域的数据或知识，用于本领域的学习。换言之，我们借用其他领域的知识来填补当前领域的知识不足，来应对冷启动问题。

比如之前介绍的阿里的 ESSM 模型中，使用 CTR 数据生成物品和用户 Embedding，共享给 CVR 模型。另一种比较常见的迁移学习是在领域 A 和领域 B 的模型结构和特征工程相同的前提下，若 A 中的模型已经训练完毕，则将 A 的参数直接作为 B 中模型参数的初始值。该方法的局限性是要求领域 A 和领域 B 所用的特征必须基本一致

“探索与利用” 机制

这是一种在 “探索新数据” 和 “利用旧数据” 之间的权衡。让推荐系统既能够利用旧数据进行推荐，达到推荐商业目标，又能高效探索冷启动的物品是否是 “优质” 商品，让其能够更快被曝光。

最经典的 “探索与利用” 机制就是 UCB (Upper Confidence Bound，置信区间上界) 。该方法需要使用 UCB 公式去计算每个物品的得分：

在这里插入图片描述

$\overline{x_j}$ 是观测到的第 j 个物品的平均回报 (指 CTR, CVR, 播放率等) ，n_j 是目前为止向用户曝光物品 j 的总次数，n 是目前曝光所有物品的总次数。根据这个式子，我们不难得出结论：当物品的平均回报高或者曝光次数少时，会有更高的 UCB 得分。因此，借助 UCB 推荐，会比较偏向推荐 “效果好” 或 “冷启动” 的物品。

总结一下，解决 “冷启动” 问题有 2 个主要方向：

在没有精确的历史行为数据的情况下，利用一些粗粒度的特征、属性，甚至其他领域的知识进行冷启动推荐
利用主动学习、"探索与利用"机制，甚至强化学习模型解决冷启动问题

探索与利用

我们刚刚使用探索与利用机制去解决冷启动问题，但是它的作用远不止于此，事实上我们可以使用它更好地挖掘用户潜在兴趣，维持系统的长期受益状态

在构建推荐系统时，我们不能只是一味根据用户的历史行为来进行推荐，因为这样的做法忽视了挖掘用户新兴趣的重要性，难以保证长远的收益，因此，一个理想的推荐系统应该能够主动试探用户新的兴趣点，主动推荐新的物品，发掘有潜力的优质物品。这就是一个探索的过程。 但是，既然是探索，那必然是不成熟的，这就意味着在此过程中会推荐一些实际上不是用户会感兴趣的对象，因此，在 “保障推荐质量” 和 “进行探索” 之间需要进行权衡，这就需要借助探索与利用机制。

目前的探索与利用可分为三大类：

传统的探索与利用方法： 将问题简化成多臂老虎机问题。主要的算法有 ε-Greedy ( ε 贪婪)、 Thompson Sampling (汤普森采样) 和 UCB。该类方法着重解决新物品的探索和利用，方法中并不考虑用户、上下文等因素，因此是非个性化的探索与利用方法
个性化的探索与利用方法： 在考虑用户、上下文等因素的基础上进行探索与利用的权衡，因此被称为个性化探索与利用方法
基于模型的探索和利用方法： 是近几年的热点，就是将探索与利用思想融入到深度学习模型之中

传统的探索与利用方法

该方法实质上解决的是一个 “多臂老虎机问题 (Multi-Armed Bandit Problem, MAB)”

在这里插入图片描述

在推荐场景中，我们可以将问题转换为 “多臂老虎机”。此时每个候选物品就是一台老虎机，推荐系统选择向用户推荐的物品时，就是选择老虎机的过程。比如视频推荐，老虎机的收益值得就是用户观看时长，因此，推荐系统会将观看时长期望最大的老虎机（视频）推荐给用户。

需要注意的是，多臂老虎机中，假定每台老虎机的期望收益对于所有用户都是一致的，比如对玩家 A 来说，赚钱概率为 0.7，对 B 也一样。因此，这不会是一个个性化推荐。

ε-Greedy 算法

这是解决多臂老虎机问题的一种方式。它的核心思想为：

选用一个 [0, 1] 的数 ε 作为从所有老虎机中选择一个老虎机的概率，以 (1 - ε) 作为选取截至目前为止平均收益最大的老虎机，在摇臂之后，根据回报值对老虎机的期望回报进行更新

这里的 ε 就代表对 “探索” 的偏好程度，以 (1 - ε) 的概率来利用，基于被选择的物品的回报更新该物品的回报期望。

但是 ε-Greedy 算法缺少启发式的方法，这是因为他对于 “探索” 和 “利用” 的划分显得很死板。因为探索是有其极限的，当探索到一定程度，已经没有更多未知信息可以挖掘，此时就应减小 ε，增大利用部分占比。另外，完全随机的探索也不甚合理，比如有的老虎机已经积累了相当的信息，那就不需要再对它投入更多的精力，因为探索永远是希望从更多的 “未知” 中进行发掘。

Thompson Sampling 算法

汤普森采样 (Thompson Sampling) 算法是一种启发式的探索与利用算法。

它假设所有老虎机的赢钱概率都是 p，同时 p 的概率分布符合 beta(win, lose)，每个老虎机都会维护一组 beta 分布参数，即 win，lose。每次试验后，选择一台老虎机，摇臂如果胜利，则 win 加 1，否则 lose 加 1。选择老虎机的方式是利用每台老虎机的 beta(win, lose) 分布，生成一个随机数 b，如此每台老虎机都会有一个随机数，选择其中生成随机数最大的那台老虎机。

在这里插入图片描述

所谓的 beta 分布就是伯努利分布的共轭先验分布，掷硬币是一个标准的伯努利分布：

在这里插入图片描述

即概率为 0.5 时，概率密度最大。换言之，我们可以认为掷硬币出正面的概率为 0.5。但如果我们为硬币正面的概率给出一个先验概率，那么该分布就是 beta 分布。也就是说，此时的硬币可以看作一枚质地不再均匀的硬币，我们可以把 CTR 问题近似为一个掷偏心硬币的问题，点击率就是将该硬币掷出正面的概率。

看一个具体的例子，下图中蓝色的分布 action1 是 beta(600, 400)；绿色的分布 action2 是 beta(400, 600)；红色的分布 action3 是 beta(30, 70)：

因为 action1 和 action2 已经做过 1000 次实验，所以不确定性已经很小，所以置信区间很窄，曲线因此比较陡峭。而 action3 仅做了 100 次实验，所以不确定性很高，因为较为平坦。

通过汤普森采样，在选择下一次行动时，action3 的收益期望最低，如果仅仅考虑 “利用” （立刻见效）则不应选择该行动。但是根据其概率分布曲线，其概率分布有一部分落在 action 1 和 action 2 概率分布右侧，而且概率并不小 (10%-20%)。也就是说，选择 action 3 这一 “老虎机” 的机会并不小。这实际上体现了汤普森采样对于 “新物品” 的倾向性

UCB 算法

UCB 与汤普森采样一样都利用了分布的不确定性作为探索强弱程度的依据。其流程如下：

假设有 K 个老虎机，对每个老虎机摇 m 次臂，获得老虎机 j 的初始收益期待 $\overline{x_j}$
同 t 表示迄今为止摇臂总次数，n_j 表示第 j 台老虎机被摇臂次数，计算每台老虎机的 UCB 得分：

在这里插入图片描述

选择 UCB 得分最高的老虎机 i 摇臂，得到其收益 X_i,t
根据 X_i,t 更新老虎机 i 的收益期望 $\overline{x_i}$
重复 Step 2

在上面这个 UCB 计算公式中， $\overline{x_j}$ 是老虎机 j 在此之前的实验收益期望，也就是 “利用” 的分值；而第二部分就是 “置信区间的宽度”，代表 “探索” 的分值。两者相加就是老虎机 j 的置信区间上界。

个性化的探索与利用方法

不管是汤普森采样还是 UCB，尽管它们都是启发式方法，但仍无法应对个性化推荐场景。这是因为它们无法引人用户的上下文和个性化信息，只能进行全局性的探索。因此就需要使用基于上下文的多臂老虎机算法 (Contextual-Bandit Algorithm)，其中最具代表性的就是 LinUCB 算法。

LinUCB 中的 Lin 表示的是 Linear，即线性。这就意味着 LinUCB 是建立在线性推荐模型或 CTR 预估模型之上。线性模型的数学形式如下：

在这里插入图片描述

其中 x_t,a 表示老虎机 a 在第 t 次实验的特征向量，θ_a^* 表示模型的参数；r_t,a 代表摇动老虎机 a 获得的回报。因此，该式就是预测在特征向量 x_t,a 的条件下，摇动老虎机 a 获得的回报期望。

为了训练得到参数 θ_a^* ，根据线性模型采用了岭回归 (Ridge Regression) 的方式

在这里插入图片描述

其中 I_d 是 d x d 维的单位向量，d 指的是老虎机 a 的特征向量的维度。矩阵 D 是一个 m x d 维的矩阵，m 表示所有训练样本中与老虎机 a 相关的 m 个训练样本，因此矩阵 D 的每一行就是一个与老虎机 a 相关样本的特征矩阵。向量 c_a 则是所有样本的标签组成的向量，顺序与矩阵 D 的样本顺序一致。

LinUCB 需要将传统的 UCB 扩展到线性模型场景之下。其 “探索” 部分得分由下式表示：

在这里插入图片描述

其中 x_t,a 是老虎机 a 的特征向量，α 是一个控制探索力度的超参数。而 A 则是一个矩阵：

在这里插入图片描述

之所以探索部分的得分会是上面这种形式，是因为探索得分的本质实际上就是对预测不确定性的一种估计，抽样的不确定性越高，抽样得出高分的可能性越大。根据岭回归的特点，模型的预测方差 (Variance) 就是 x_t,a^T A_a^-1 x_t,a， $\sqrt{x_t^T A^- x_t}$ 就是预测标准差，也就是 “探索” 部分的得分。

for t in 1, 2, 3, ..., T do
	Observe features of all arms. a ∈ A~t~ x~t,a~ ∈ R
	
	for all a ∈ A~t~ do 
		if a is new then
			A~a~ ← I~d~ (d-dimensional identify matrix)
			b~a~ ← 0 (d-dimensional 0 matrix)
		end if
		
		θ ← A~a~ * b~a~
		p ← θ * x~t,a~ + α √x A x
	end for
	
	Choose arm a~t~ = argmax(p) with ties broken arbitrarily and observe a real-valued payoff r~t~
	
	A~a~ ← A + x^T^x
	b~a~ ← b + r~t~

算法的整体流程实际上和汤普森采样以及 UCB 基本一致。不同在于挑选老虎机时使用了 LinUCB 的探索与利用得分计算，更新模型时则使用基于岭回归的方式进行计算。 但是，LinUCB 需要严格的理论支撑才能得到预测标准差的具体形式