强化学习评估-Doubly robust

最新推荐文章于 2024-05-06 18:22:55 发布

_zhang_sq_

最新推荐文章于 2024-05-06 18:22:55 发布

阅读量1.6k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_42286753/article/details/104165790

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

对于基于神经网络的，如DQN，Q(s,a)没法穷举，policy iteration-value iteration这样的方法不能用，强化学习的评估通常是用与训练样本不同的数据评测，这里就涉及一个概念，测试数据能否代表训练数据的分布，有偏bias还是无偏unbiased？

举个例子，要计算一个班学生的平均身高，如果学生随机缺席几个，计算出来的平均身高也能代表总体，这就是无偏，但是如果缺席的是篮球队员（都是高个子），就是有偏

如果不论数据是何种分布，都用均值来算，这种方法称为Direct Method(DM)，对于有偏分布，是不准确的

如果能找到容易缺失的是哪类数据，假设班级里有5个学生身高>=180，3人缺失，这么说，任意身高>=180的学生都有40%的概率缺失。然后其他学生都在场，这样平均身高为：
$H_{IPS}=\frac{\sum^{n}_{i=1}h_i/p_i}{n}$
$p_i$ 是在场学生身高为 $h_i$ 的概率，按照设定，由于身高<180的学生都在场， $h_i<180,p_i=1$ ， $h_i>=180,p_i=0.4$
这样，对于身高>=180的学生，每个在场样本的 $p_i$ 较小，计算后代表的身高数较大，弥补了缺失数据带来的总体身高偏小的影响

这种方法称为Inverse Propensity Score (IPS)，上述方法也可写成：
$H_{IPS}=\frac{\sum^{N}_{i=1}o_ih_i/p_i}{n}$

这里统计的是所有学生（包括未缺席的），上面的方法只统计了在场的学生。 $o_i$ 表示学生是否缺席，如果学生缺席了， $o_i$ 是0。 $p_i$ 和 $h_i$ 的计算方式不变，对结果没影响。注意N和n

但是实际中，往往无法找到容易缺失的数据类型，而且如果缺失数据的p比较小，会导致计算出来的值很大，方差也很大，为了保证用的是无偏数据，这里有一个新的方法：Doubly robust(DR)，公式为：

$(1)\hat{H}_{DR}=\frac{1}{n}\sum^{N}_{i=1}[\frac{o_ih_i}{p_i}-\frac{o_i-p_i}{p_i}\hat{h}_{i,mean}]$
也可以表示为：
$\frac{o_ih_i}{p_i}-\frac{o_i-p_i}{p_i}\hat{h}_{i,mean}=\frac{o_ih_i}{p_i}-\frac{o_i\hat{h}_{i,mean}}{p_i}+\hat{h}_{i,mean}$
$(2)=\frac{o_i(h_i-h_{i,mean)}}{p_i}+h_{i,mean}$
$h_{i,mean}$ 可以当做一个模型

如果IPS是对的，(1)中o-p是0，左半部是IPS
如果模型是对的，(2)中 $h_i-h_{i,mean}$ 是0，也就是说模型能预测出真实的h，公式还剩下模型，也是对的
参考视频

$=\frac{o_ih_i}{p_i}-h_i-\frac{o_i\hat{h}_{i,mean}}{p_i}+\hat{h}_{i,mean}+h_i$
$=\frac{o_ih_i}{p_i}-\frac{p_ih_i}{p_i}-\frac{o_i\hat{h}_{i,mean}-p_i\hat{h}_{i,mean}}{p_i}+h_i$
$=h_i+\frac{o_i-p_i}{p_i}h_i-\frac{o_i-p_i}{p_i}\hat{h}_{i,mean}$
$=h_i+\frac{o_i-p_i}{p_i}(h_i-\hat{h}_{i,mean})$
得到：
$(3)\hat{H}_{DR}=\frac{1}{n}\sum^{N}_{i=1}h_i+\frac{1}{n}\sum^{N}_{i=1}\frac{o_i-p_i}{p_i}(h_i-\hat{h}_{i,mean})$

如果学生随机缺席，样本的均值能代表整体的均值，(3)中右半部的 $\frac{1}{n}\sum^{N}_{i=1}h_i-h_{mean}$ 就可以近似为0，因此右半部也近似为0，随机缺席的情况下，左半部是无偏的
如果个子高的缺席，按照前面的设定， $p_i=1, o_i=1$ ， $\sum^{N}_{i=1}o_i-p_i=0$ ，右半部是0 ； $o_i=0$ 时，从(1)来看，就剩 $h_{i,mean}$ 了,这样也是无偏的

也就是说，DM和IPS满足一个，DR就是无偏的，这也解释了Doubly Robust-双重稳健

$\hat{h}_{i,mean}$ 和 $p_i$ 都可以用函数表示

在强化学习中，根据论文，DM思想表示为：
$\hat{V}^π_{DM}=\frac{1}{|S|}\sum{ρ_{π(x)}(x)}$
ρ是expect reward，DM也就是求平均期望

上述IPS思想表示为：
$\hat{V}^π_{IPS}=\frac{1}{|S|}\sum{\frac{r_aI(π(x)=a)}{\hat{p}(a|x,h)}}$
除法下面是比较old policy和new policy的the shift in action proportions，I()是0或1，是否发生，r是reward

DM:
$\hat{V}^π_{DM}=\frac{1}{|S|}\sum{[\frac{(r_a-\hat{ρ}_a(x))I(π(x)=a)}{\hat{p}(a|x,h)}}+ρ_{π(x)}(x)]$

_zhang_sq_

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
强化学习评估-Doubly robust

对于基于神经网络的，如DQN，Q(s,a)没法穷举，policy iteration-value iteration这样的方法不能用，强化学习的评估通常是用与训练样本不同的数据评测，这里就涉及一个概念，测试数据能否代表训练数据的分布，有偏bias还是无偏unbiased？举个例子，要计算一个班学生的平均身高，如果学生随机缺席几个，计算出来的平均身高也能代表总体，这就是无偏，但是如果缺席的是篮球...
复制链接

扫一扫

专栏目录