这节课老师主要回顾了VI以及PI的方法,然后给出了RL中PAC(Probably Approximately Correct)问题的理论推导思路。
首先是PAC(Probably Approximately Correct),不得不说,这是一个百度不到的词,也确实是一个目前RL的理论研究方向。PAC的含义有大概正确的意思,老师分了两个角度去分析学习的误差:
Approximation error: 数学模子不完善致使的误差,也就是说由于模型维度空间考虑的不周所带来的distance。
Estimation error: 数据不完善,好比数据无限或数据有偏,致使的误差,这个比如sample过程中带来的distance。
首先是model free和model base
if model base we can using DP to solve an MDP requires knowledge of P r ( s ′ ∣ s , a ) Pr(s'|s,a) Pr(s′∣s,a) and R ( s , a ) R(s,a) R(s,a).
然后POMDP(partially observable MDP)
In reality, the states may not be fully observable.
然后老师提到了一个example,在非闭合的markov chains中,在任意初始s中,点乘 P r ( s ′ ∣ s ) Pr(s'|s) Pr(s′∣s),可以在一定次数的迭代后,得到稳定的概率,然后是好多的proof…,这些proof可以啃好久了。
PAC
learnability is a key concept in ML
- 可以学到什么概念?
- 一种特定的学习方法效率如何?
- 固有的难学之处是什么?
- 要成功学习一个概念,需要多少个示例?
- 是否有关于学习性的通用模型和理论?
而PAC主要为了解决下面两个问题
sample complexity
我们需要多少训练示例才能以高概率地收敛到假设
computational complexity
我们需要多大的计算量才能以高概率地收敛到假设
PAC中的定义与符号
X
X
X为样本,
Y
Y
Y为标签,考虑
f
:
X
→
Y
=
{
0
,
1
}
f: X\rightarrow Y=\{0,1\}
f:X→Y={0,1}
定义
D
D
D是
X
→
Y
X\rightarrow Y
X→Y的分布,我们需要通过训练和测试来描述这个分布
我们定义 S S S为样本的集合,而 H H H为假设,给有限样本 S S S下,学习的问题是 h : X → Y ∈ H h:X\rightarrow Y\in H h:X→Y∈H来近似 f f f, f f f有可能在 H H H中,也有可能不在 H H H中。
然后我们定义两种误差来了解近似值
R ( h ) = Pr x ∼ D [ h ( x ) ≠ f ( x ) ] = E x ∼ D [ 1 h ( x ) ≠ f ( x ) ] R(h)=\Pr_{x\sim D}[h(x)≠f(x)]=E_{x\sim D}[1_{h(x)≠f(x)}] R(h)=x∼DPr[h(x)=f(x)]=Ex∼D[1h(x)=f(x)]
而关于h在训练样本 S S S的平均误差根据关于 S S S的经验分布 D ^ \hat{D} D^
R ^ S ( h ) = Pr x ∼ D ^ [ h ( x ) ≠ f ( x ) ] = E x ∼ D ^ [ 1 h ( x ) ≠ f ( x ) ] = 1 m ∑ i = 1 m h ( x i ) ≠ f ( x i ) \hat{R}_S(h)=\Pr_{x\sim \hat{D}}[h(x)≠f(x)]=E_{x\sim\hat{D}}[1_{h(x)≠f(x)}]\\=\frac{1}{m}\sum_{i=1}^mh(x_i)≠f(x_i) R^S(h)=x∼D^Pr[h(x)=f(x)]=Ex∼D^[1h(x)=f(x)]=m1i=1∑mh(xi)=f(xi)
记 R ( h ) = E S ∼ D m [ R ^ s ( h ) ] R(h)=E_{S\sim D^m}[\hat{R}_s(h)] R(h)=ES∼Dm[R^s(h)],其中 D m D^m Dm代表从样本 S S S中的分布 D D D
PAC learning的定义
如果存在
L
(
S
)
→
h
L(S)\rightarrow h
L(S)→h,那么称
Y
Y
Y是PAC-learnable:
∀
y
∈
Y
,
δ
>
0
,
ϵ
>
0
,
∀
D
Pr
S
∼
D
m
[
R
(
h
)
≤
ϵ
]
≥
1
−
δ
\forall y\in Y, \delta > 0, \epsilon > 0, \forall D \\ \Pr_{S\sim D^m}[R(h)\leq\epsilon]\geq1-\delta
∀y∈Y,δ>0,ϵ>0,∀DS∼DmPr[R(h)≤ϵ]≥1−δ
当 S S S的数量达到 m > poly ( 1 ϵ , 1 δ ) m>\text{poly}(\frac{1}{\epsilon},\frac{1}{\delta}) m>poly(ϵ1,δ1)时,
PAC中利用 δ > 0 \delta>0 δ>0来定义confidence 1 − δ 1-\delta 1−δ(probabilistically), ϵ > 0 \epsilon>0 ϵ>0来定义accuracy 1 − ϵ 1-\epsilon 1−ϵ(approximate correct)
如果算法中观测到 poly ( 1 ϵ , 1 δ ) \text{poly}(\frac{1}{\epsilon}, \frac{1}{\delta}) poly(ϵ1,δ1)返回至少 1 − δ 1-\delta 1−δ概率,误差最多 ϵ \epsilon ϵ,近似正确,则这个 Y Y Y是PAC-learnable。
学习bound for finite H-consistent case
关于consistent的解释:如果假设集 H H H在训练集 S S S上没有错误,那么是一致的。
定理
假设
H
H
H为
X
X
X至
Y
Y
Y的一个有限空间函数集,对于任何目标concept
y
∈
Y
y\in Y
y∈Y以及独立同分布的样本集
S
S
S,算法
L
L
L都能返回一个与
S
S
S一致的hypothesis
h
S
h_S
hS,也就是
R
S
(
h
S
)
=
0
R_S(h_S)=0
RS(hS)=0.那么有对于任意的
δ
>
0
\delta>0
δ>0,至少有
1
−
δ
1-\delta
1−δ的概率下
R
(
h
s
)
≤
1
m
(
log
∣
H
∣
+
log
∣
1
δ
∣
)
⏟
ϵ
generalisation bound
R(h_s)\leq\underbrace{\frac{1}{m}(\log|H|+\log|\frac{1}{\delta}|)}_{\epsilon}\qquad\text{generalisation bound}
R(hs)≤ϵ
m1(log∣H∣+log∣δ1∣)generalisation bound
上界由 log ∣ H ∣ \log|H| log∣H∣或者 log 2 ∣ H ∣ \log_2|H| log2∣H∣来决定,同样,
P S ∼ D m [ R ( h s ) ≤ ϵ ] ≥ 1 − δ P_{S\sim D^m}[R(h_s)\leq\epsilon]\geq1-\delta PS∼Dm[R(hs)≤ϵ]≥1−δ,当 m ≥ 1 ϵ ( log ∣ H ∣ + log 1 δ ) m\geq\frac{1}{\epsilon}(\log|H|+\log\frac{1}{\delta}) m≥ϵ1(log∣H∣+logδ1)
未完待续…(PAC真的很理论,先去学习一下基础)