RLChina2020 学习笔记(2)

这节课老师主要回顾了VI以及PI的方法,然后给出了RL中PAC(Probably Approximately Correct)问题的理论推导思路。

首先是PAC(Probably Approximately Correct),不得不说,这是一个百度不到的词,也确实是一个目前RL的理论研究方向。PAC的含义有大概正确的意思,老师分了两个角度去分析学习的误差:

Approximation error: 数学模子不完善致使的误差,也就是说由于模型维度空间考虑的不周所带来的distance。
Estimation error: 数据不完善,好比数据无限或数据有偏,致使的误差,这个比如sample过程中带来的distance。

首先是model free和model base

if model base we can using DP to solve an MDP requires knowledge of P r ( s ′ ∣ s , a ) Pr(s'|s,a) Pr(ss,a) and R ( s , a ) R(s,a) R(s,a).

然后POMDP(partially observable MDP)
In reality, the states may not be fully observable.

然后老师提到了一个example,在非闭合的markov chains中,在任意初始s中,点乘 P r ( s ′ ∣ s ) Pr(s'|s) Pr(ss),可以在一定次数的迭代后,得到稳定的概率,然后是好多的proof…,这些proof可以啃好久了。

PAC

learnability is a key concept in ML

  1. 可以学到什么概念?
  2. 一种特定的学习方法效率如何?
  3. 固有的难学之处是什么?
  4. 要成功学习一个概念,需要多少个示例?
  5. 是否有关于学习性的通用模型和理论?

而PAC主要为了解决下面两个问题

sample complexity
我们需要多少训练示例才能以高概率地收敛到假设
computational complexity
我们需要多大的计算量才能以高概率地收敛到假设

PAC中的定义与符号

X X X为样本, Y Y Y为标签,考虑 f : X → Y = { 0 , 1 } f: X\rightarrow Y=\{0,1\} f:XY={0,1}
定义 D D D X → Y X\rightarrow Y XY的分布,我们需要通过训练和测试来描述这个分布

我们定义 S S S为样本的集合,而 H H H为假设,给有限样本 S S S下,学习的问题是 h : X → Y ∈ H h:X\rightarrow Y\in H h:XYH来近似 f f f f f f有可能在 H H H中,也有可能不在 H H H中。

然后我们定义两种误差来了解近似值

R ( h ) = Pr ⁡ x ∼ D [ h ( x ) ≠ f ( x ) ] = E x ∼ D [ 1 h ( x ) ≠ f ( x ) ] R(h)=\Pr_{x\sim D}[h(x)≠f(x)]=E_{x\sim D}[1_{h(x)≠f(x)}] R(h)=xDPr[h(x)=f(x)]=ExD[1h(x)=f(x)]

而关于h在训练样本 S S S的平均误差根据关于 S S S的经验分布 D ^ \hat{D} D^

R ^ S ( h ) = Pr ⁡ x ∼ D ^ [ h ( x ) ≠ f ( x ) ] = E x ∼ D ^ [ 1 h ( x ) ≠ f ( x ) ] = 1 m ∑ i = 1 m h ( x i ) ≠ f ( x i ) \hat{R}_S(h)=\Pr_{x\sim \hat{D}}[h(x)≠f(x)]=E_{x\sim\hat{D}}[1_{h(x)≠f(x)}]\\=\frac{1}{m}\sum_{i=1}^mh(x_i)≠f(x_i) R^S(h)=xD^Pr[h(x)=f(x)]=ExD^[1h(x)=f(x)]=m1i=1mh(xi)=f(xi)

R ( h ) = E S ∼ D m [ R ^ s ( h ) ] R(h)=E_{S\sim D^m}[\hat{R}_s(h)] R(h)=ESDm[R^s(h)],其中 D m D^m Dm代表从样本 S S S中的分布 D D D

PAC learning的定义

如果存在 L ( S ) → h L(S)\rightarrow h L(S)h,那么称 Y Y Y是PAC-learnable:
∀ y ∈ Y , δ > 0 , ϵ > 0 , ∀ D Pr ⁡ S ∼ D m [ R ( h ) ≤ ϵ ] ≥ 1 − δ \forall y\in Y, \delta > 0, \epsilon > 0, \forall D \\ \Pr_{S\sim D^m}[R(h)\leq\epsilon]\geq1-\delta yY,δ>0,ϵ>0,DSDmPr[R(h)ϵ]1δ

S S S的数量达到 m > poly ( 1 ϵ , 1 δ ) m>\text{poly}(\frac{1}{\epsilon},\frac{1}{\delta}) m>poly(ϵ1,δ1)时,

PAC中利用 δ > 0 \delta>0 δ>0来定义confidence 1 − δ 1-\delta 1δ(probabilistically), ϵ > 0 \epsilon>0 ϵ>0来定义accuracy 1 − ϵ 1-\epsilon 1ϵ(approximate correct)

如果算法中观测到 poly ( 1 ϵ , 1 δ ) \text{poly}(\frac{1}{\epsilon}, \frac{1}{\delta}) poly(ϵ1,δ1)返回至少 1 − δ 1-\delta 1δ概率,误差最多 ϵ \epsilon ϵ,近似正确,则这个 Y Y Y是PAC-learnable。

学习bound for finite H-consistent case

关于consistent的解释:如果假设集 H H H在训练集 S S S上没有错误,那么是一致的。

定理
假设 H H H X X X Y Y Y的一个有限空间函数集,对于任何目标concept y ∈ Y y\in Y yY以及独立同分布的样本集 S S S,算法 L L L都能返回一个与 S S S一致的hypothesis h S h_S hS,也就是 R S ( h S ) = 0 R_S(h_S)=0 RS(hS)=0.那么有对于任意的 δ > 0 \delta>0 δ>0,至少有 1 − δ 1-\delta 1δ的概率下
R ( h s ) ≤ 1 m ( log ⁡ ∣ H ∣ + log ⁡ ∣ 1 δ ∣ ) ⏟ ϵ generalisation bound R(h_s)\leq\underbrace{\frac{1}{m}(\log|H|+\log|\frac{1}{\delta}|)}_{\epsilon}\qquad\text{generalisation bound} R(hs)ϵ m1(logH+logδ1)generalisation bound

上界由 log ⁡ ∣ H ∣ \log|H| logH或者 log ⁡ 2 ∣ H ∣ \log_2|H| log2H来决定,同样,

P S ∼ D m [ R ( h s ) ≤ ϵ ] ≥ 1 − δ P_{S\sim D^m}[R(h_s)\leq\epsilon]\geq1-\delta PSDm[R(hs)ϵ]1δ,当 m ≥ 1 ϵ ( log ⁡ ∣ H ∣ + log ⁡ 1 δ ) m\geq\frac{1}{\epsilon}(\log|H|+\log\frac{1}{\delta}) mϵ1(logH+logδ1)

未完待续…(PAC真的很理论,先去学习一下基础)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值