对于基于神经网络的, 如DQN,Q(s,a)没法穷举,policy iteration-value iteration这样的方法不能用,强化学习的评估通常是用与训练样本不同的数据评测,这里就涉及一个概念,测试数据能否代表训练数据的分布,有偏bias还是无偏unbiased?
举个例子,要计算一个班学生的平均身高,如果学生随机缺席几个,计算出来的平均身高也能代表总体,这就是无偏,但是如果缺席的是篮球队员(都是高个子),就是有偏
如果不论数据是何种分布,都用均值来算,这种方法称为Direct Method(DM),对于有偏分布,是不准确的
如果能找到容易缺失的是哪类数据,假设班级里有5个学生身高>=180,3人缺失,这么说,任意身高>=180的学生都有40%的概率缺失。然后其他学生都在场,这样平均身高为:
H
I
P
S
=
∑
i
=
1
n
h
i
/
p
i
n
H_{IPS}=\frac{\sum^{n}_{i=1}h_i/p_i}{n}
HIPS=n∑i=1nhi/pi
p
i
p_i
pi是在场学生身高为
h
i
h_i
hi的概率,按照设定,由于身高<180的学生都在场,
h
i
<
180
,
p
i
=
1
h_i<180,p_i=1
hi<180,pi=1,
h
i
>
=
180
,
p
i
=
0.4
h_i>=180,p_i=0.4
hi>=180,pi=0.4
这样,对于身高>=180的学生,每个在场样本的
p
i
p_i
pi较小,计算后代表的身高数较大,弥补了缺失数据带来的总体身高偏小的影响
这种方法称为Inverse Propensity Score (IPS),上述方法也可写成:
H
I
P
S
=
∑
i
=
1
N
o
i
h
i
/
p
i
n
H_{IPS}=\frac{\sum^{N}_{i=1}o_ih_i/p_i}{n}
HIPS=n∑i=1Noihi/pi
这里统计的是所有学生(包括未缺席的),上面的方法只统计了在场的学生。 o i o_i oi表示学生是否缺席,如果学生缺席了, o i o_i oi是0。 p i p_i pi和 h i h_i hi的计算方式不变,对结果没影响。注意N和n
但是实际中,往往无法找到容易缺失的数据类型,而且如果缺失数据的p比较小,会导致计算出来的值很大,方差也很大,为了保证用的是无偏数据,这里有一个新的方法:Doubly robust(DR),公式为:
(
1
)
H
^
D
R
=
1
n
∑
i
=
1
N
[
o
i
h
i
p
i
−
o
i
−
p
i
p
i
h
^
i
,
m
e
a
n
]
(1)\hat{H}_{DR}=\frac{1}{n}\sum^{N}_{i=1}[\frac{o_ih_i}{p_i}-\frac{o_i-p_i}{p_i}\hat{h}_{i,mean}]
(1)H^DR=n1i=1∑N[pioihi−pioi−pih^i,mean]
也可以表示为:
o
i
h
i
p
i
−
o
i
−
p
i
p
i
h
^
i
,
m
e
a
n
=
o
i
h
i
p
i
−
o
i
h
^
i
,
m
e
a
n
p
i
+
h
^
i
,
m
e
a
n
\frac{o_ih_i}{p_i}-\frac{o_i-p_i}{p_i}\hat{h}_{i,mean}=\frac{o_ih_i}{p_i}-\frac{o_i\hat{h}_{i,mean}}{p_i}+\hat{h}_{i,mean}
pioihi−pioi−pih^i,mean=pioihi−pioih^i,mean+h^i,mean
(
2
)
=
o
i
(
h
i
−
h
i
,
m
e
a
n
)
p
i
+
h
i
,
m
e
a
n
(2)=\frac{o_i(h_i-h_{i,mean)}}{p_i}+h_{i,mean}
(2)=pioi(hi−hi,mean)+hi,mean
h
i
,
m
e
a
n
h_{i,mean}
hi,mean可以当做一个模型
- 如果IPS是对的,(1)中o-p是0,左半部是IPS
- 如果模型是对的,(2)中
h
i
−
h
i
,
m
e
a
n
h_i-h_{i,mean}
hi−hi,mean是0,也就是说模型能预测出真实的h,公式还剩下模型,也是对的
参考视频
=
o
i
h
i
p
i
−
h
i
−
o
i
h
^
i
,
m
e
a
n
p
i
+
h
^
i
,
m
e
a
n
+
h
i
=\frac{o_ih_i}{p_i}-h_i-\frac{o_i\hat{h}_{i,mean}}{p_i}+\hat{h}_{i,mean}+h_i
=pioihi−hi−pioih^i,mean+h^i,mean+hi
=
o
i
h
i
p
i
−
p
i
h
i
p
i
−
o
i
h
^
i
,
m
e
a
n
−
p
i
h
^
i
,
m
e
a
n
p
i
+
h
i
=\frac{o_ih_i}{p_i}-\frac{p_ih_i}{p_i}-\frac{o_i\hat{h}_{i,mean}-p_i\hat{h}_{i,mean}}{p_i}+h_i
=pioihi−pipihi−pioih^i,mean−pih^i,mean+hi
=
h
i
+
o
i
−
p
i
p
i
h
i
−
o
i
−
p
i
p
i
h
^
i
,
m
e
a
n
=h_i+\frac{o_i-p_i}{p_i}h_i-\frac{o_i-p_i}{p_i}\hat{h}_{i,mean}
=hi+pioi−pihi−pioi−pih^i,mean
=
h
i
+
o
i
−
p
i
p
i
(
h
i
−
h
^
i
,
m
e
a
n
)
=h_i+\frac{o_i-p_i}{p_i}(h_i-\hat{h}_{i,mean})
=hi+pioi−pi(hi−h^i,mean)
得到:
(
3
)
H
^
D
R
=
1
n
∑
i
=
1
N
h
i
+
1
n
∑
i
=
1
N
o
i
−
p
i
p
i
(
h
i
−
h
^
i
,
m
e
a
n
)
(3)\hat{H}_{DR}=\frac{1}{n}\sum^{N}_{i=1}h_i+\frac{1}{n}\sum^{N}_{i=1}\frac{o_i-p_i}{p_i}(h_i-\hat{h}_{i,mean})
(3)H^DR=n1i=1∑Nhi+n1i=1∑Npioi−pi(hi−h^i,mean)
- 如果学生随机缺席,样本的均值能代表整体的均值,(3)中右半部的 1 n ∑ i = 1 N h i − h m e a n \frac{1}{n}\sum^{N}_{i=1}h_i-h_{mean} n1∑i=1Nhi−hmean就可以近似为0,因此右半部也近似为0,随机缺席的情况下,左半部是无偏的
- 如果个子高的缺席,按照前面的设定, p i = 1 , o i = 1 p_i=1, o_i=1 pi=1,oi=1, ∑ i = 1 N o i − p i = 0 \sum^{N}_{i=1}o_i-p_i=0 ∑i=1Noi−pi=0,右半部是0 ; o i = 0 o_i=0 oi=0时,从(1)来看,就剩 h i , m e a n h_{i,mean} hi,mean了,这样也是无偏的
也就是说,DM和IPS满足一个,DR就是无偏的,这也解释了Doubly Robust-双重稳健
h ^ i , m e a n \hat{h}_{i,mean} h^i,mean和 p i p_i pi都可以用函数表示
在强化学习中,根据论文,DM思想表示为:
V
^
D
M
π
=
1
∣
S
∣
∑
ρ
π
(
x
)
(
x
)
\hat{V}^π_{DM}=\frac{1}{|S|}\sum{ρ_{π(x)}(x)}
V^DMπ=∣S∣1∑ρπ(x)(x)
ρ是expect reward,DM也就是求平均期望
上述IPS思想表示为:
V
^
I
P
S
π
=
1
∣
S
∣
∑
r
a
I
(
π
(
x
)
=
a
)
p
^
(
a
∣
x
,
h
)
\hat{V}^π_{IPS}=\frac{1}{|S|}\sum{\frac{r_aI(π(x)=a)}{\hat{p}(a|x,h)}}
V^IPSπ=∣S∣1∑p^(a∣x,h)raI(π(x)=a)
除法下面是比较old policy和new policy的the shift in action proportions,I()是0或1,是否发生,r是reward
DM:
V
^
D
M
π
=
1
∣
S
∣
∑
[
(
r
a
−
ρ
^
a
(
x
)
)
I
(
π
(
x
)
=
a
)
p
^
(
a
∣
x
,
h
)
+
ρ
π
(
x
)
(
x
)
]
\hat{V}^π_{DM}=\frac{1}{|S|}\sum{[\frac{(r_a-\hat{ρ}_a(x))I(π(x)=a)}{\hat{p}(a|x,h)}}+ρ_{π(x)}(x)]
V^DMπ=∣S∣1∑[p^(a∣x,h)(ra−ρ^a(x))I(π(x)=a)+ρπ(x)(x)]