从零开始的机器学习6-强化学习

最新推荐文章于 2024-04-01 08:18:26 发布

LogHouse

最新推荐文章于 2024-04-01 08:18:26 发布

阅读量373

点赞数 2

分类专栏：机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LogHouse/article/details/96434429

版权

机器学习同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

从零开始的机器学习6-强化学习

一些问题

智能控制与优化决策课题组制作。
对应周志华《机器学习》第十六章内容。

一些问题

1、分析强化学习与监督学习的联系与差别。

监督学习就是有导师学习，所学习的样例是有标签的。
强化学习是无导师学习。但实际上，强化学习有一位隐形的导师，这个导师会告诉你所获得的奖赏，这些奖赏其实也是一种标签，不过这种标签需要通过学习得到。

2、

\varepsilon

-贪心法如何实现探索与利用的平衡。

探索指对未知的部分进行尝试和认知，尝试找到较当前最优解更优的解；
利用指使用已知部分的信息，保证解较优。

\varepsilon

贪心法是一种平衡探索与利用的方法，以ϵ

\varepsilon

的概率进行探索，以

\varepsilon-1

的概率进行利用，通常令

\varepsilon

取一个较小的常数，也就是说，以大概率利用，小概率探索。不过，如果你去餐馆的次数足够多了，几乎所有餐馆你都去过了，那里就可以放心的去你现在发现最好吃的餐馆了，所以，探索的概率逐渐减小也是个不错的选择。

3、如何用赌博机算法实现强化学习任务。

在玩K-摇臂赌博机时，赌徒在投入一个硬币后可选择按下其中一个摇臂，每个摇臂以一定的概率吐出硬币，但这个概率赌徒并不知道，那要如何最大化自己的奖赏呢。最大化奖赏需要做两件事：1）尽可能准确的知道每个摇臂平均奖赏；2）尽可能多的利用平均奖赏最多的那个摇臂。
对于第一件事，需要的是多次尝试，观察记录摇臂按下的次数和获得的奖赏，计算每个摇臂的平均奖赏；对于第二件事，就是尽可能选择平均奖赏多的摇臂。
将赌博机算法用于每个状态，对每个状态分别记录个动作的尝试次数、当前平均累积奖赏等信息，然后基于

\varepsilon

-贪心算法之类的方法选择下一步的动作。

4、试推导

\gamma

折扣累积奖赏的全概率展开式(16.8)。

\begin{aligned} V^\pi_\gamma&amp;=\mathbb{E}_\pi[\sum^\infin_{t=0} \gamma^tr_{t+1}|x_0=x]\\ &amp;=\mathbb{E}_\pi[r_1+\sum^\infin_{t=1}\gamma^tr_{t+1}|x_0=x]\\ &amp;=\mathbb{E}_\pi[r_1+\gamma\sum^\infin_{t=1}\gamma^{t-1}r_{t+1}|x_0=x]\\ &amp;=\sum_{a\in A}\pi(x,a)\sum_{x&#x27;\in X}P^a_{x\rightarrow x&#x27;} (R^a_{x\rightarrow x&#x27;}+\gamma\mathbb{E}_\pi [\sum^\infin_{t=0}\gamma^tr_{t+1}|x_0=x&#x27;])\\ &amp;=\sum_{a\in A}\pi(x,a)\sum_{x&#x27;\in X}P^a_{x\rightarrow x&#x27;} (R^a_{x\rightarrow x&#x27;}+\gamma V^\pi_\gamma(x&#x27;)) \end{aligned}

其中，

\pi(x,a)

表示在

x

状态下执行动作

a

的概率；

P^a_{x\rightarrow x&#x27;}

表示执行动作

a

之后转移到状态

x^{'}

的概率；

R^a_{x\rightarrow x&#x27;}+\gamma V^\pi_\gamma(x&#x27;)

表示到达状态

x^{'}

所能获得的奖赏，其中

R^a_{x\rightarrow x&#x27;}

为即时奖赏，

\gamma V^\pi_\gamma(x&#x27;)

为未来奖赏的估计。

5、什么是动态规划中的最优性原理，与强化学习中的策略更新有什么关系

最优性原理：一个最优策略的子策略必须是最优的。
在强化学习中，策略实际上是状态到动作的映射，在某一个状态下，策略决定了采取什么动作。
如果每一个状态下采取的动作都是最优动作，那么，总的策略也会是最优的。

6、完成时序差分学习中式(16.31)的推导。

时序差分学习的特点就是每执行一步策略后就进行值函数的更新。
在计算第

t + 1

个采样

r_{t+1}

时按照增量平均公式有：

Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\frac{1}{t+1}(r_{t+1}-Q^\pi_{t}(x,a))

采用近似的方法，令

\alpha=\alpha_{t+1},\alpha

为较小的整数。这种近似在

t

增大时是收敛的。结合策略改进方式（16.15）有：

r_{t+1}=(R^a_{x\rightarrow x&#x27;}+\gamma\max\limits_{a&#x27;\in A}+Q^\pi_{t}(x&#x27;,a&#x27;)

推出：

Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x&#x27;}+\gamma\max\limits_{a&#x27;\in A}Q^\pi_{t}(x&#x27;,a&#x27;)-Q^\pi_{t}(x,a))

综合

\varepsilon

-贪心法可以的到：

Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x&#x27;}+\gamma Q^\pi_{t}(x&#x27;,a&#x27;)-Q^\pi_{t}(x,a))

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。