Exploitation and Exploration

最新推荐文章于 2022-10-09 21:24:11 发布

jony0917

最新推荐文章于 2022-10-09 21:24:11 发布

阅读量501

点赞数

文章标签：机器学习算法

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/124225531

版权

本文探讨了推荐系统中的核心问题——探索（Exploration）与利用（Exploitation）的平衡。ε-贪心算法通过随机探索和选择收益期望最大物品进行推荐。UCB算法则采用收益上限估计，以探索未知。LinUCB则考虑了物品和用户的特征，提供更精确的收益估计。这些算法在推荐系统中用于不断发现用户新需求，实现长期用户价值最大化。

摘要由CSDN通过智能技术生成

推荐系统的经典问题之一，利用（Exploitation）与探索（Exploration）问题

Exploitation：满足已知的用户需求
Exploration：探索未知的用户需求

Exploitation的必要性比较容易理解，通过满足用户已知的需求，产生用户价值，这也是推荐系统存在的意义。Exploration的价值怎么理解呢？首先，对于新用户而言，系统并不知道用户的需求，这时必须通过Exploration探索和发现用户的需求。其次，对于老用户而言，兴趣点也是在不断变化中的，这时也需要通过Exploration不断发现用户的新产生需求。

Exploration必然会导致短期用户价值一定程度的牺牲，目标是为了长期的用户价值；Exploitation满足了短期的用户需求，但仅仅满足短期的需求并非是最优的选择。如何做好利用与探索，以及二者之间的权衡，下面介绍的几个算法在这些方面各有自己的特点。

$\epsilon-greedy$

$\epsilon-greedy$ 算法将推荐策略分为两类：利用策略和探索策略，算法的过程如下：

以概率 $\epsilon \in (0,1)$ 选择探索策略，跳至过程2；以概率 $1-\epsilon$ 选择利用策略，跳至过程3。
探索（Exploration）策略：随机选择n个物品中的一个进行推荐，也就是每个物品被选中的概率为 $\frac{1}{n}$ ，并记录此次推荐的结果收益，比如 $r = 1$ 表示用户喜欢， $r = 0$ 表示用户不喜欢。
利用（Exploitation）策略：选择目前为止收益值期望最大的物品进行推荐。物品的收益值期望可以用物品的历史收益值来估计： $\frac{\sum_{k=1}^{K}r_k}{K}$ . 其中 $K_i$ 表示物品i历史上被推荐的次数， $r_i^k$ 表示物品i第k次推荐的收益值。

UCB(Upper Confidence Bound)

UCB算法的核心是对候选物品估计收益值 $R$ 。对

于一个随机变量的估计值，一般同时可以同时确定一个置信区间。UCB算法对物品收益的估计值以物品的收益上限为准，即选择收益上限值最大的物品进行推荐：

$\Delta$

其中 $r$ 表示收益估计值， $\Delta$ 表示真实值与估计值之间的差异，这里我们取置信区间上限值。收益的估计值 $r$ 用历史收益值的均值来估计，当采样数n越大，估计值越接近真实值：

$r=\frac{\sum_{i=1}^nr_i}{n}$

那么如何确定置信区间呢？答案是:

[Chernoff-Hoeffding Bound] 对于n个独立同分布的随机变量 $x_i\in[0,1],i=1,2,...,n$ ，设 $x=\sum_{i=1}^nx_i$ ，则：

$\leq \delta)\leq 1- 2e^{-2n\delta^2}$

回到UCB算法，则有下面不等式成立：

$\leq \delta)\geq 1-2e^{-2n\delta^2}$

取 $\delta = \sqrt{\frac{2lnT}{n}}$ ，则：

$P(|E(r)-r|\leq \sqrt{\frac{2lnT}{n}})\geq1-\frac{2}{T^4}$

可以取 $\Delta=\sqrt{2lnT/n}$ 。最后，UCB是收益估计值计算方式为：

$R=\frac{\sum_{i=1}^nr_i}{n} + \sqrt{\frac{2lnT}{n}}$

LinUCB

LinUCB算法的核心同样是对物品收益值的估计，同样是以收益置信区间上限值作为标准，选择收益上限值最大的物品进行推荐，不同的是在估计收益值的时候，考虑特征：

$x^T\theta + \Delta$

其中 $x$ 表示特征向量，包含物品特征、用户特征以及上下文特征， $\theta$ 为待学习的参数，参数的学习目标为最小化下面的损失函数：

$Loss(\theta)=|X\theta - r|^2 + |I\theta|^2$

可以看出LinUCB采用线性模型估计物品的收益值。

下面 $\Delta$ 的估计，原文中对上界的推到过程比较麻烦，这里不展开介绍了，直接使用结果：

$P(|x^T\theta-p|\leq (1 + \sqrt{ln(2/\delta)/2})\sqrt{x^T(X^TX+I^TI)^{-1}x}) \leq 1- \delta$

我们采用 $\Delta=1 + \sqrt{ln(2/\delta)/2})\sqrt{x^T(X^TX+I^TI)^{-1}x}$ ,其中 $\delta$ 为超参。

最终LinUCB的收益值计算法方式为：

$x^T\theta + (1 + \sqrt{ln(2/\delta)/2})\sqrt{x^T(X^TX+I^TI)^{-1}x})$

贝叶斯推断

NeuralUCB

Thompson Sampling

Thompson Sampling for Contextual Bandits with Linear Payoffs

Sample Average Uncertainty (SAU)

Deep Bandits Show-Off: Simple and Efficient Exploration with Deep Networks

LinUCB variant

https://openreview.net/forum?id=jCxDyge46t2

jony0917

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Exploitation and Exploration

推荐系统的经典问题之一，利用（Exploitation）与探索（Exploration）问题Exploitation：满足已知的用户需求Exploration：探索未知的用户需求Exploitation的必要性比较容易理解，通过满足用户已知的需求，产生用户价值，这也是推荐系统存在的意义。Exploration的价值怎么理解呢？首先，对于新用户而言，系统并不知道用户的需求，这时必须通过Exploration探索和发现用户的需求。其次，对于老用户而言，兴趣点也是在不断变化中的，这时也需要通过Exp
复制链接

扫一扫