Human-level control through deep reinforcement learning(算法部分翻译)

最新推荐文章于 2023-09-12 09:50:08 发布

熊舍尼奥

最新推荐文章于 2023-09-12 09:50:08 发布

阅读量584

点赞数 1

分类专栏：论文翻译文章标签：强化学习

本文链接：https://blog.csdn.net/smartxiong_/article/details/111394602

版权

Human-level control through deep reinforcement learning算法在一系列动作、观察和奖励中，我们考虑代理与环境交互的任务，在这种情况下是雅达利仿真器。在每个时间步，代理从合法游戏动作集合中选择一个动作ata_tat，A={1,...K}\Alpha=\{1,...K\}A={1,...K}。该动作被传递给仿真器，并修改其内部状态和游戏分数。一般来说，环境可能是随机的。代理不观察模拟器的内部状态；相反，代理观察来自仿真器的图像xt∈Rdx_t\i

摘要由CSDN通过智能技术生成

Human-level control through deep reinforcement learning

算法

在一系列动作、观察和奖励中，我们考虑代理与环境交互的任务，在这种情况下是雅达利仿真器。在每个时间步，代理从合法游戏动作集合中选择一个动作 $a_t$ ， $\Alpha=\{1,...K\}$ 。该动作被传递给仿真器，并修改其内部状态和游戏分数。一般来说，环境可能是随机的。代理不观察模拟器的内部状态；相反，代理观察来自仿真器的图像 $x_t\in{R^d}$ ，它是表示当前屏幕的像素值的向量。此外，它还会收到代表游戏分数变化的奖励 $r_t$ 。请注意，一般来说，游戏分数可能取决于整个先前的行动和观察序列；关于一个动作的反馈可能只有在几千个时间步骤过去之后才被接收。
因为代理只观察当前屏幕，所以任务只有部分被观察到，并且许多仿真器状态在感知上是混叠的(也就是说，不可能仅从当前屏幕 $x_t$ 完全理解当前情况)。因此，动作和观察的序列 $s_t=x_1,a_1,x_2,...,a_{t-1},x_t$ ，被输入到算法，然后算法根据这些序列学习游戏策略。模拟器中的所有序列都假设在有限的时间步长内终止。这种形式产生了一个大型但有限的马尔可夫决策过程(MDP)，其中每个序列是一个不同的状态。因此，我们可以对MDPs应用标准的强化学习方法，简单地通过使用完整的序列 $s_t$ 作为时间 $t$ 的状态表示。
代理的目标是通过以最大化未来回报的方式选择动作来与仿真器交互。我们做了一个标准的假设，即未来的奖励每一时间步都要有一个 $\gamma$ 倍的折扣(自始至终 $\gamma$ 设定为0.99)。同时定义未来时刻 $t$ 的折扣回报为 ${R_t}=\sum_{t'=t}^T\gamma^{t'-t}r_{t'}$ ， $T$ 是游戏结束时刻。定义最优动作值函数 $Q^*(s,a)$ 为遵循任何政策可获得的最大预期回报。在看到一些序列 $s$ 然后采取一些动作 $a$ 之后， $Q^*(s,a)=maxE[R_t|s_t=s,a_t=a,\pi]$

最低0.47元/天解锁文章

熊舍尼奥

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Human-level control through deep reinforcement learning(算法部分翻译)

Human-level control through deep reinforcement learning算法在一系列动作、观察和奖励中，我们考虑代理与环境交互的任务，在这种情况下是雅达利仿真器。在每个时间步，代理从合法游戏动作集合中选择一个动作ata_tat，A={1,...K}\Alpha=\{1,...K\}A={1,...K}。该动作被传递给仿真器，并修改其内部状态和游戏分数。一般来说，环境可能是随机的。代理不观察模拟器的内部状态；相反，代理观察来自仿真器的图像xt∈Rdx_t\i
复制链接

扫一扫

专栏目录