The Self-Normalized Estimator for CounterfactualLearning

背景知识

BLBF(Batch Learning from Logged Bandit Feedback)

批量学习来自日志赌博机反馈(Batch Learning from Logged Bandit Feedback,简称BLBF)是一种学习算法,它通过分析过去的数据(日志数据)来优化在线决策。这种方法适用于具有部分可观测的反馈的场景,例如在线广告展示、推荐系统等。

这里,我们将以一种简化的形式,介绍BLBF算法的基本原理和数学表示。

假设有一个上下文空间𝑋和一个动作空间𝐴。对于每个时间步𝑡,我们有:

1. 上下文特征向量𝑥_𝑡 ∈ 𝑋
2. 动作𝑎_𝑡 ∈ 𝐴
3. 回报𝑟(𝑥_𝑡, 𝑎_𝑡) ∈ [0, 1]

目标是找到一个决策函数 𝑓: 𝑋 → 𝐴,以最大化期望回报:

𝔼[𝑟(𝑥, 𝑓(𝑥))] = ∑_(𝑥,𝑎) 𝑃(𝑥) 𝑃(𝑎|𝑥) 𝑟(𝑥, 𝑎)

其中𝑃(𝑥)表示上下文分布,𝑃(𝑎|𝑥)表示给定上下文𝑥时,采取动作𝑎的条件概率。

例子:

由于我们无法直接观测到所有可能的动作和回报,因此我们需要利用日志数据(赌博机反馈)来学习决策函数。假设我们有一个数据集𝐷 = {(𝑥_1, 𝑎_1, 𝑟_1), …, (𝑥_𝑇, 𝑎_𝑇, 𝑟_𝑇)},其中𝑇表示时间步的数量。

在BLBF中,我们将使用重要性采样(Importance Sampling)技术来估计𝔼[𝑟(𝑥, 𝑓(𝑥))]。首先,我们需要一个基准策略𝜋_𝑏,它提供了动作选择的概率:𝜋_𝑏(𝑎|𝑥)。基准策略可以是一个简单的策略,如均匀分布策略,或是一个更复杂的策略。我们用𝑄(𝑥, 𝑎)表示我们希望学习的决策函数。

然后,我们用重要性采样估计器计算期望回报:

𝑅_𝑇 = (1/𝑇) ∑_(𝑡=1)^𝑇 [𝑟_𝑡 * 𝑤_𝑡]

其中,𝑤_𝑡是重要性权重:

𝑤_𝑡 = 𝑄(𝑎_𝑡|𝑥_𝑡) / 𝜋_𝑏(𝑎_𝑡|𝑥_𝑡)

重要性权重用于调整基准策略和目标策略之间的概率差异。

接下来,我们需要优化𝑄(𝑥, 𝑎)以最大化𝑅_𝑇。通常,这可以通过使用梯度下降或其他优化算法来完成。一个常见的选择是使用逻辑回归或神经网络作为𝑄(𝑥, 𝑎)的函数近似。对于每个时间步𝑡,我们计算梯度:

∇_𝜃 𝑅_𝑇 = 𝑟_𝑡 * 𝑤_𝑡 * ∇_𝜃 log 𝑄(𝑎_𝑡|𝑥_𝑡)

其中𝜃表示决策函数的参数。然后,我们使用随机梯度下降(SGD)或其他优化方法更新参数:

𝜃 ← 𝜃 + 𝜂 ∇_𝜃 𝑅_𝑇

在更新了𝜃之后,我们将更新决策函数𝑄(𝑥, 𝑎)。

重复此过程直到满足某个收敛准则,例如达到预定的迭代次数或梯度变化趋于稳定。最终,我们将得到一个优化过的决策函数𝑄(𝑥, 𝑎),可以在实际应用中用于做出决策。

需要注意的是,BLBF算法存在一定的偏差和方差,这取决于基准策略的选择和重要性权重。为了减少估计误差,可以使用策略优化技术,如自适应重要性采样(Adaptive Importance Sampling)或双重学习(Doubly Robust Learning)等。这些方法旨在改进基准策略和减小重要性权重的方差,从而提高算法性能。

ERM(Empirical Risk Minimization) 与 CRM(Counterfactual Risk Minimization )

1.  计算公式:

(a) Empirical Risk Minimization (ERM):

ERM的目标是最小化训练集上的平均损失。给定一个数据集𝐷 = {(𝑥₁, 𝑦₁), …, (𝑥ₙ, 𝑦ₙ)},损失函数ℒ(𝑓(𝑥), 𝑦),ERM试图找到一个函数𝑓\*,使得平均损失最小:

f^*=\arg \min _f \frac{1}{n} \sum_{i=1}^n \mathcal{L}\left(f\left(x_i\right), y_i\right)

(b) Counterfactual Risk Minimization (CRM):

CRM的目标是最小化基于观测到的数据的预期损失。在具有部分可观测反馈的场景下,例如在线广告或推荐系统,我们通常有一组日志数据𝐷 = {(𝑥ᵢ, 𝑎ᵢ, 𝑟ᵢ)},𝑖 = 1, …, 𝑛,其中𝑥ᵢ表示上下文,𝑎ᵢ表示采取的动作,𝑟ᵢ表示观察到的奖励。我们的目标是学习一个决策函数𝑓: 𝑋 → 𝐴,使得预期损失最小。

对于CRM,我们使用重要性采样技术来估计预期损失。设𝜋(𝑎|𝑥)表示目标策略,𝜋ᵦ(𝑎|𝑥)表示基准策略。那么CRM的目标函数为:

f^*=\arg \min _f \frac{1}{n} \sum_{i=1}^n w_i \mathcal{L}\left(f\left(x_i\right), a_i\right)

其中𝑤ᵢ = 𝜋(𝑎ᵢ|𝑥ᵢ) / 𝜋ᵦ(𝑎ᵢ|𝑥ᵢ)是重要性权重。

使用场景

(a) Empirical Risk Minimization (ERM):

ERM适用于有完全可观测反馈的监督学习任务,如图像分类、回归问题等。

(b) Counterfactual Risk Minimization (CRM):

CRM适用于具有部分可观测反馈的情景,如在线广告、推荐系统等。

优缺点

ERM

优点:

- 简单易懂,容易实现。
- 对于有完全可观测反馈的监督学习任务,具有很好的性能。
- 在训练数据和真实数据分布相似的情况下,泛化性能较好。

缺点:

- 对于具有部分可观测反馈的情景,例如在线广告或推荐系统,ERM性能可能较差,因为它没有考虑到反馈的偏见。
- 对于训练数据和真实数据分布差异较大的情况,泛化性能可能较差。

CRM

优点:

- 适用于具有部分可观测反馈的情景,如在线广告或推荐系统,可以利用重要性采样来估计预期损失,从而解决偏差问题。
- 适用于在线学习和强化学习场景。
- 能够处理因动作选择导致的反馈偏差。

缺点:

- 需要选择合适的基准策略,并估计重要性权重,这可能导致方差较大,从而影响性能。
- 对于基准策略与目标策略差异较大的情况,CRM性能可能受到影响,因为重要性权重可能变得很大或不稳定。
- 相比于ERM,实现起来更复杂。

ERM 是一种传统的监督学习方法,它旨在最小化训练数据上的经验风险(损失函数的平均值)。在 ERM 中,训练数据是完全可观察的,即对于每个输入 x,我们都有一个对应的真实输出 y。ERM 假设训练数据是从与测试数据相同的分布中抽取的,因此它将训练误差作为泛化误差的近似。

CRM 是一种针对带有有限反馈(partial feedback)的监督学习问题的方法。在 CRM 中,训练数据是从一个历史策略(例如,另一个模型或算法)生成的,而这个历史策略与我们想要学习的目标策略可能不同。CRM 需要考虑训练数据的偏差,因为它可能不是从与测试数据相同的分布中抽取的。为了解决这个问题,CRM 使用重要性采样(importance sampling)或其他反事实估计方法来调整训练数据的损失,并引入一个正则化项来惩罚与记录策略相距较远的假设,从而防止过拟合。

总之,ERM 和 CRM 的主要区别在于:

  1. 数据反馈类型:ERM 处理完全可观察的数据,而 CRM 处理部分可观察的数据。
  2. 数据来源:ERM 假设训练数据与测试数据来自相同的分布,而 CRM 不做这个假设,因为训练数据来自一个历史策略。
  3. 风险估计:ERM 仅使用经验风险作为泛化误差的近似,而 CRM 使用反事实估计方法(如重要性采样)来调整训练数据的损失,并引入正则化项以防止过拟合。

重要性采样

重要性采样(Importance Sampling)是一种统计方法,用于估计一个分布的期望值,特别是当直接从目标分布进行采样非常困难或昂贵时。它通过从另一个分布(称为提议分布)中进行采样,并对结果进行加权,以减少偏差并获得对目标分布期望值的无偏估计。

以下是一个结合实际情况的例子:

假设你正在研究某地区的野生动物种群,你想知道某种特定动物的平均体重。然而,由于动物种群密度低且分布不均,直接在目标种群中捕捉动物并测量体重非常困难。

在这种情况下,你可以使用重要性采样来估计动物的平均体重。首先,选择一个容易观察和测量的动物种群作为提议分布(例如,与目标种群生活在相同地区的其他动物种群)。然后,从提议分布中随机抽取一些动物,并测量它们的体重。

为了将提议分布中的体重数据转换为目标分布的无偏估计,需要对观察到的体重进行加权。权重可以通过计算目标分布和提议分布之间的概率比值来确定。假设你知道目标动物种群和提议动物种群的体重分布(例如,通过历史数据或专家知识),那么可以计算权重,并将其应用于观察到的体重。

最后,根据加权的体重计算加权平均值,这将给出目标动物种群的平均体重的无偏估计。

在多臂老虎机问题和强化学习中,重要性采样常用于从部分反馈中学习最优策略。通过对观察到的奖励进行加权,可以消除因部分反馈而导致的偏差,并获得无偏估计。这使得从历史数据中学习新策略成为可能。

以多臂老虎机问题为背景,我们将详细解释批次学习自记录强盗反馈(BLBF)方法的学习优化过程,以及重要性采样在其中的作用。我们假设有 K 个臂,每个时间步骤 t 下,智能体需要选择一个操作 a_t,并观察到与所选操作相关的奖励 r_t。

  1. 收集历史日志数据: 在时间步骤 t,智能体根据历史策略 pi(a_t|x_t) 选择操作 a_t,其中 a_t 是所选操作,x_t 是上下文信息(例如用户特征)。智能体收集了 T 个时间步骤的日志数据 D = {(x_1, a_1, r_1), (x_2, a_2, r_2), ..., (x_T, a_T, r_T)}。

  2. 定义目标策略: 目标策略为 mu(a|x),这是我们要学习的策略。它决定了在给定上下文 x 的情况下选择每个操作 a 的概率。

  3. 重要性采样权重: 为了消除部分反馈导致的偏差,我们计算重要性采样权重 w_t,它是目标策略和历史策略之间的概率比值: w_t = mu(a_t|x_t) / pi(a_t|x_t)

  4. 优化损失函数: 我们的目标是找到一个最小化加权损失的策略 mu(a|x)。加权损失可以表示为: L(mu) = (1/T) * Σ [w_t * l(mu(a_t|x_t), r_t)] 其中,l(mu(a_t|x_t), r_t) 是预测奖励 mu(a_t|x_t) 和观察到的奖励 r_t 之间的损失函数。
    为了找到最优策略 mu(a|x),我们可以使用梯度下降法或其他优化方法最小化损失函数 L(mu)。在优化过程中,梯度下降会根据损失函数的梯度更新 mu(a|x)。

  5.  结果: 经过优化,我们获得了一个新的策略 mu(a|x),它在给定上下文 x 的情况下选择操作 a,以最小化预测奖励与观察到的奖励之间的加权损失。这样,我们就从历史日志数据中学到了一个新的策略,可以用来进行更好的决策。

通过这个过程,BLBF方法结合了重要性采样来处理多臂老虎机问题中的部分反馈。优化损失函数的过程使策略能够根据历史数据学习并改进其决策。

反事实估计器

反事实估计器(Counterfactual Estimator)是一种评估因果效应的方法,即在干预某个变量时另一个变量的预期变化。在许多实际问题中,我们无法直接观察到干预后的结果,因此需要依靠反事实估计器来估计这些结果。

我们以一个在线广告系统为例,假设我们有一个新的广告策略,想要测试它对点击率的影响。然而,我们不能直接在实际用户中测试这个策略。因此,我们需要使用已有的历史日志数据来估计这个策略在实际应用中的性能。

设历史日志数据为 D = {(x_1, a_1, r_1), (x_2, a_2, r_2), ..., (x_T, a_T, r_T)},其中 x_t 是上下文信息(例如用户特征),a_t 是在时间步长 t 选择的广告,r_t 是观察到的奖励(例如点击率)。我们的目标是估计新策略 mu(a|x) 在实际应用中的平均奖励。

一个常用的反事实估计器是基于重要性采样(Importance Sampling)的估计器。它的工作原理可以用以下公式表示:

V(mu) = E[R(mu(A|X))] ≈ (1/T) * Σ [w_t * r_t]

其中,

  • V(mu) 是新策略 mu 的平均奖励的估计值;
  • E 表示期望;
  • R(mu(A|X)) 表示在新策略 mu 下的奖励;
  • w_t 是重要性权重,用于调整历史日志数据与新策略之间的分布不匹配。通常,w_t = mu(a_t|x_t) / p(a_t|x_t),其中 p(a_t|x_t) 是历史日志数据中选择动作 a_t 的概率;
  • r_t 是观察到的奖励。

通过计算加权奖励的平均值,我们可以估计新策略 mu 在实际应用中的性能。请注意,这个估计依赖于重要性权重 w_t,这些权重通过历史日志数据和新策略之间的概率比例进行调整,以减小两者之间的分布不匹配。

除了基于重要性采样的反事实估计器外,还有其他一些常用的反事实估计器。以下是其中的几个例子:

1. Doubly Robust Estimator (双重稳健估计器):

这种估计器结合了基于模型的估计和基于重要性采样的估计,以提高稳定性和准确性。其公式表示为:

V_DR(mu) = (1/T) * Σ [(w_t * r_t) + (Q(x_t, a_t) - w_t * Q(x_t, a_t))]

其中,

  • V_DR(mu) 是新策略 mu 的双重稳健估计值;
  • w_t 是重要性权重,与之前相同;
  • Q(x_t, a_t) 是一个价值函数估计,表示在状态 x_t 采取动作 a_t 时的预期奖励。

2.Direct Method (直接方法):

这种估计器直接使用一个模型来估计新策略的价值。通常,我们使用回归方法(如线性回归或神经网络)来估计价值函数 Q(x, a)。其公式表示为:

V_DM(mu) = (1/T) * Σ [Q(x_t, a_t)]

其中,

  • V_DM(mu) 是新策略 mu 的直接方法估计值;
  • Q(x_t, a_t) 是在状态 x_t 采取动作 a_t 时的价值函数估计。

3.Inverse Propensity Score (倒置倾向得分):

这种估计器与重要性采样类似,但在计算加权奖励时使用倒置倾向得分。其公式表示为:

V_IPS(mu) = (1/T) * Σ [r_t / w_t]

其中,

  • V_IPS(mu) 是新策略 mu 的倒置倾向得分估计值;
  • w_t 是重要性权重,与之前相同;
  • r_t 是观察到的奖励。

请注意,这些估计器的性能可能因问题的具体情况而异。在实际应用中,可以根据问题的特点和数据的可用性来选择合适的反事实估计器。

两种overfitting

用经验风险最小化 (ERM) 时可能发生的两种过拟合现象:Loss Overfitting(损失过拟合)和Propensity Overfitting(倾向过拟合)。

  1. Loss Overfitting(损失过拟合):这是监督学习中的常见过拟合现象。在这种情况下,模型在拟合训练数据时捕捉到了数据中的噪声或偶然的模式。Loss Overfitting 通常发生在模型的容量(参数数量或复杂度)过高时。

  2. Propensity Overfitting(倾向过拟合):这是在BLBF中使用经验风险最小化时可能出现的一种特殊过拟合现象。这种过拟合发生在模型试图最大化(对于负损失)或最小化(对于正损失)重要性权重之和的情况下。在这种情况下,过拟合的原因是模型过度关注重要性权重,而不是损失值本身。

对于正损失,过拟合的模型会选择避免训练数据,而对于负损失,过拟合的模型会选择过度代表训练数据的假设。

这里我们结合两个例子和公式来解释两种过拟合现象(Loss Overfitting 和 Propensity Overfitting)以及解决策略。

Loss Overfitting(损失过拟合):在有限的训练样本上,过拟合的模型试图最小化损失值,即:

\hat{R}(h)=\frac{1}{n} \sum_{i=1}^n \frac{\delta_i}{h\left(y_i \mid x_i\right) p_i}

这种过拟合会导致模型在训练数据上表现良好,但在未知数据上泛化能力较差。为了解决这个问题,可以采用正则化方法或选择合适的模型复杂度。

Propensity Overfitting(倾向过拟合):这种过拟合现象发生在模型试图最大化(对于负损失)或最小化(对于正损失)重要性权重之和的情况下,即:

\hat{S}(h)=\frac{1}{n} \sum_{i=1}^n \frac{h\left(y_i \mid x_i\right)}{p_i}

在这种情况下,过拟合的原因是模型过度关注重要性权重,而不是损失值本身。

解决策略:为了解决这种过拟合问题,可以使用反事实风险最小化(CRM)方法。CRM 在经验风险最小化的基础上添加了一个正则化项,惩罚与记录策略相距较远的假设:

\hat{h}^{C R M}=\underset{h \in \mathcal{H}}{\operatorname{argmin}}\left\{\hat{R}^M(h)+\lambda \sqrt{\frac{\hat{\boldsymbol{V} \boldsymbol{a} \boldsymbol{r}}\left(u_h\right)}{n}}\right\}

其中,$\hat{R}^M(h)$ 表示经验风险,$\lambda$ 是正则化参数,$\hat{\boldsymbol{V a r}}\left(u_h\right)$ 是假设 $h$ 的方差。通过这种方式,CRM 不仅关注损失值,还通过正则化项防止过拟合。

POEM(Propensity Overfitting-aware Empirical Risk Minimization)

在讲解该算法的过程之前,先回顾一下我们需要解决的问题。给定一个历史数据集 D,其中包括样本 $(x_i, y_i, \delta_i, p_i)$,其中 $x_i$ 是输入,$y_i$ 是输出,$\delta_i$ 是损失,$p_i$ 是采样概率。我们的目标是找到一个假设 $h$,使得风险 $R(h)$ 最小。为了避免倾向过拟合,我们需要考虑一个加入正则项的优化问题。

POEM算法的主要思想是在经验风险最小化(ERM)的基础上引入一个正则化项,以减小倾向过拟合的影响。在POEM中,我们引入一个控制变量 $u_i$,其定义为:

u_i=\frac{h\left(y_i \mid x_i\right)}{p_i}

然后,我们定义一个正则化项,用于衡量 $u_i$ 的方差:

\hat{V} a r\left(u_h\right)=\frac{1}{n} \sum_{i=1}^n\left(u_i-\hat{S}(h)\right)^2

其中 $\hat{S}(h)$ 是 $u_h$ 的平均值,即:

\hat{S}(h)=\frac{1}{n} \sum_{i=1}^n u_{i}

现在,我们可以定义POEM的优化目标,即带有正则化项的经验风险:

\hat{h}^{}=\underset{h \in \mathcal{H}}{\operatorname{argmin}}\left\{\hat{R_{SN}}(h)+\lambda \sqrt{\frac{\hat{\boldsymbol{V} \boldsymbol{a} \boldsymbol{r}}\left(u_h\right)}{n}}\right\}

其中 \lambda 是正则化系数,用于控制正则化项的强度,\hat{R}_{SN}(h) 是经验风险:

 

\hat{R}_{S N}(h)=\frac{\sum_{i=1}^n \delta_i \frac{h\left(y_i |x_i\right)}{p_i}}{\sum_{i=1}^n \frac{h\left(y_i | x_i\right)}{p_i}}

Norm-POEM(Normalized Propensity Overfitting Exponential Minimization)

\hat{\operatorname{Var}}\left(\hat{R}_{S N}(h)\right)=\frac{\sum_{i=1}^n\left(\delta_i-\hat{R}_{S N}(h)\right)^2\left(\frac{h\left(y_i \mid x_i\right)}{p_i}\right)^2}{\left(\sum_{i=1}^n \frac{h\left(y_i \mid x_i\right)}{p_i}\right)^2}

这个公式是用来估计自归一化风险估计器(Self-Normalized Risk Estimator)的方差。这里,我们使用了正态近似方法和delta方法来获得方差估计。

  1. $\delta_i$:这是实际损失值,表示在给定输入$x_i$的情况下,模型对输出$y_i$的预测准确性。

  2. $\hat{R}^{SN}(h)$:这是自归一化风险估计器,它是一种用于估计模型风险(即预测误差)的方法。

  3. $h(y_i | x_i)$:这是模型在给定输入$x_i$的情况下对输出$y_i$的预测概率。

  4. $p_i$:这是采样策略(logging policy)$h_0(x_i)$在给定输入$x_i$的情况下对输出$y_i$的预测概率。

\hat{h}^{N o r m-P O E M}=\operatorname{argmin}_{h \in \mathcal{H}}\left\{\hat{R}_{S N}(h)+\lambda \sqrt{\frac{\operatorname{Var}\left(\hat{R}_{S N}(h)\right)}{n}}\right\}

POEM 和 Norm-POEM 的主要区别在于它们使用的方差估计方法。POEM 使用一个简化的方差估计($\hat{Var}(u_h)$),而 Norm-POEM 使用一个更精确的方差估计($\hat{Var}(\hat{R}_{SN}(h))$)。这使得 Norm-POEM 更加稳定,但计算复杂度也相应提高。

Refrence

文章原文及代码实现: POEM: Policy Optimizer for Exponential Models 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值