Bourne强化学习笔记3：在简单的Bandit问题中抓住强化学习的本质

最新推荐文章于 2024-05-24 03:49:26 发布

Bourne_Boom

最新推荐文章于 2024-05-24 03:49:26 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习强化学习

本文链接：https://blog.csdn.net/linyijiong/article/details/82055340

版权

强化学习最重要的特点是利用训练信息来评估动作，而不是指出最优动作。这就要求需要探索（explore）多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度，但没有直接指出哪个动作是最好或最坏的；而后者可以指导处哪个动作是最好的，并且该指导反馈与已经发生的动作无关。这也是非监督学习（评价性反馈）与监督学习（指导性反馈）的区别。评价性反馈完全依赖于所选择的动作（即所产生的样本），而指导性反馈则与所...

摘要由CSDN通过智能技术生成

强化学习最重要的特点是利用训练信息来评估动作，而不是指出最优动作。这就要求需要探索（explore）多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度，但没有直接指出哪个动作是最好或最坏的；而后者可以指导处哪个动作是最好的，并且该指导反馈与已经发生的动作无关。这也是非监督学习（评价性反馈）与监督学习（指导性反馈）的区别。评价性反馈完全依赖于所选择的动作（即所产生的样本），而指导性反馈则与所选择的动作（即所产生的样本）无关。

因此，所有RL的算法思路都是为了评估一个动作的好坏，有的用Value，有的用策略梯度，异曲同工之妙。

在Sutton的RL入门经典书本中最先出现的强化学习问题叫Bandit，即在该问题中，只有一个state，经历完该state，该问题就结束了。k-armed Bandit则是在该state中有k个选择。每个动作选择都有即时回报R，但这个R不是一个确定值，是一个服从某种概率分布的随机值，我们可用R的期望来表示该动作的真实价值，记为q。但是，在实际问题中我们并不知道哪个选择的真实价值最大，因此我们可以利用大数定理，通过多次采样，利用 sample average的方法求得动作的估计值Q，用Q来逼近真实值q。这个过程称为探索(explore)。

Bandit问题根据动作的即时回报R的概率分布分为：

1. Stationary，即概率分布确定不变。

2. Nonstationary，即概率分布不确定。

对于Stationary

最低0.47元/天解锁文章

Bourne_Boom

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bourne强化学习笔记3：在简单的Bandit问题中抓住强化学习的本质

强化学习最重要的特点是利用训练信息来评估动作，而不是指出最优动作。这就要求需要探索（explore）多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度，但没有直接指出哪个动作是最好或最坏的；而后者可以指导处哪个动作是最好的，并且该指导反馈与已经发生的动作无关。这也是非监督学习（评价性反馈）与监督学习（指导性反馈）的区别。评价性反馈完全依赖于所选择的动作（即所产生的样本），而指导性反馈则与所...
复制链接

扫一扫