RLChina2020 学习笔记(2)

最新推荐文章于 2023-11-27 21:51:42 发布

oO蛋蛋Oo

最新推荐文章于 2023-11-27 21:51:42 发布

阅读量346

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/qq_27389705/article/details/108263394

版权

强化学习专栏收录该内容

15 篇文章 2 订阅

订阅专栏

这节课老师主要回顾了VI以及PI的方法，然后给出了RL中PAC(Probably Approximately Correct)问题的理论推导思路。

首先是PAC(Probably Approximately Correct)，不得不说，这是一个百度不到的词，也确实是一个目前RL的理论研究方向。PAC的含义有大概正确的意思，老师分了两个角度去分析学习的误差：

Approximation error: 数学模子不完善致使的误差，也就是说由于模型维度空间考虑的不周所带来的distance。
Estimation error: 数据不完善，好比数据无限或数据有偏，致使的误差，这个比如sample过程中带来的distance。

首先是model free和model base

if model base we can using DP to solve an MDP requires knowledge of $P r (s^{'} ∣ s, a)$ and $R (s, a)$ .

然后POMDP(partially observable MDP)
In reality, the states may not be fully observable.

然后老师提到了一个example，在非闭合的markov chains中，在任意初始s中，点乘 $P r (s^{'} ∣ s)$ ，可以在一定次数的迭代后，得到稳定的概率，然后是好多的proof…，这些proof可以啃好久了。

PAC

learnability is a key concept in ML

可以学到什么概念？
一种特定的学习方法效率如何？
固有的难学之处是什么？
要成功学习一个概念，需要多少个示例？
是否有关于学习性的通用模型和理论？

而PAC主要为了解决下面两个问题

sample complexity
我们需要多少训练示例才能以高概率地收敛到假设
computational complexity
我们需要多大的计算量才能以高概率地收敛到假设

PAC中的定义与符号

$X$ 为样本， $Y$ 为标签，考虑 $X\rightarrow Y=\{0,1\}$
定义 $D$ 是 $X\rightarrow Y$ 的分布，我们需要通过训练和测试来描述这个分布

我们定义 $S$ 为样本的集合，而 $H$ 为假设，给有限样本 $S$ 下，学习的问题是 $h:X\rightarrow Y\in H$ 来近似 $f$ ， $f$ 有可能在 $H$ 中，也有可能不在 $H$ 中。

然后我们定义两种误差来了解近似值

$R(h)=\Pr_{x\sim D}[h(x)≠f(x)]=E_{x\sim D}[1_{h(x)≠f(x)}]$

而关于h在训练样本 $S$ 的平均误差根据关于 $S$ 的经验分布 $\hat{D}$

$\hat{R}_S(h)=\Pr_{x\sim \hat{D}}[h(x)≠f(x)]=E_{x\sim\hat{D}}[1_{h(x)≠f(x)}]\\=\frac{1}{m}\sum_{i=1}^mh(x_i)≠f(x_i)$

记 $R(h)=E_{S\sim D^m}[\hat{R}_s(h)]$ ，其中 $D^m$ 代表从样本 $S$ 中的分布 $D$

PAC learning的定义

如果存在 $L(S)\rightarrow h$ ，那么称 $Y$ 是PAC-learnable：
$\forall y\in Y, \delta > 0, \epsilon > 0, \forall D \\ \Pr_{S\sim D^m}[R(h)\leq\epsilon]\geq1-\delta$

当 $S$ 的数量达到 $m>\text{poly}(\frac{1}{\epsilon},\frac{1}{\delta})$ 时，

PAC中利用 $\delta>0$ 来定义confidence $1-\delta$ (probabilistically)， $\epsilon>0$ 来定义accuracy $1-\epsilon$ (approximate correct)

如果算法中观测到 $\text{poly}(\frac{1}{\epsilon}, \frac{1}{\delta})$ 返回至少 $1-\delta$ 概率，误差最多 $\epsilon$ ，近似正确，则这个 $Y$ 是PAC-learnable。

学习bound for finite H-consistent case

关于consistent的解释：如果假设集 $H$ 在训练集 $S$ 上没有错误，那么是一致的。

定理
假设 $H$ 为 $X$ 至 $Y$ 的一个有限空间函数集，对于任何目标concept $y\in Y$ 以及独立同分布的样本集 $S$ ，算法 $L$ 都能返回一个与 $S$ 一致的hypothesis $h_S$ ，也就是 $R_S(h_S)=0$ .那么有对于任意的 $\delta>0$ ，至少有 $1-\delta$ 的概率下
$R(h_s)\leq\underbrace{\frac{1}{m}(\log|H|+\log|\frac{1}{\delta}|)}_{\epsilon}\qquad\text{generalisation bound}$

上界由 $\log|H|$ 或者 $log_2|H|$ 来决定，同样，

$P_{S\sim D^m}[R(h_s)\leq\epsilon]\geq1-\delta$ ，当 $m\geq\frac{1}{\epsilon}(\log|H|+\log\frac{1}{\delta})$

未完待续…(PAC真的很理论，先去学习一下基础)

oO蛋蛋Oo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RLChina2020 学习笔记(2)

RLChina2020 学习笔记(2)这节课老师主要回顾了VI以及PI的方法，然后给出了RL中PAC(Probably Approximately Correct)问题的理论推导思路。首先是PAC(Probably Approximately Correct)，不得不说，这是一个百度不到的词，也确实是一个目前RL的理论研究方向。PAC的含义有大概正确的意思，老师分了两个角度去分析学习的误差：Approximation error: 数学模子不完善致使的误差，也就是说由于模型维度空间考虑的不周所带来的d
复制链接

扫一扫

专栏目录