强化学习入门: the 10-armed bandit problem，e-greedy 算法

最新推荐文章于 2023-09-29 11:19:12 发布

ningzian

最新推荐文章于 2023-09-29 11:19:12 发布

阅读量1.3k

点赞数

分类专栏：理论类文章标签：强化学习 the 10-armed bandit e-greedy

本文链接：https://blog.csdn.net/qq_31880107/article/details/100574944

版权

27 篇文章 10 订阅

订阅专栏

学习强化学习《Reinforcement Learning An Introduction》，2.3节，做了个Matlab的仿真。

问题描述：the 10-armed bandit problem

这是一个重复做选择的问题。一共有10个选择，重复选择1000次。

每次选择都会有奖励，奖励是符合固定的正态分布的。

所以做不同的选择，获得的奖励不同；每次做的选择，尽管选择相同，但奖励也不同。

你的目的是，连续做了1000次选择后，得到的回报总和越高越好。

在这里插入图片描述

这个图是一个特殊的 10-armed bandit problem。特殊之处在于 $q_\star (a)$ 的值。

重要：10-armed bandit problem是一个系列问题的总称，每个特殊的10-armed bandit problem之间的不同之处在于 $q_\star (a)$ 的值的不同。选择选项 $a$ 后，获得奖励是符合正态分布的 $N(q_\star(a),1)$ 。

你是不知道 $q_\star(a)$ 的具体值的，所以首先要对每个选择的行为值做个估计，因为这个估计值是在不断更新的，所以定义为 $Q_t( a )$ ，意思是在 $t$ 时刻，选择行为 $a$ 后，估计得到的奖励值。

这个算法的大概步骤是：每次选择执行的行为是估计值最大的行为，小概率的情况下，随机选择其他的行为。

算法步骤如下：

因为存在不确定性，每次的回报都是服从一个正态分布，所以每次做实验的结果也是不一样的。为了说明问题，我们做2000次仿真实验，每次仿真实验都是，然后取平均值。

对于某一$\epsilon $的仿真步骤如下：