playing atari with DQN

最新推荐文章于 2024-10-15 19:28:18 发布

SRTTTTT

最新推荐文章于 2024-10-15 19:28:18 发布

阅读量134

点赞数

文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/qq_51003458/article/details/126818568

版权

本文介绍了Q学习，一种无模型的强化学习算法，以及它的扩展深Q网络（DQN），利用经验回放缓冲区和神经网络进行近似值函数。此外，还提到了时间差分学习和蒙特卡洛方法的关系。接着讨论了PPO，这是一种基于策略梯度的优化算法，强调添加基线以适当地分配信用。文章涵盖了强化学习的基本组件，如智能体、环境和重要采样，并探讨了探索与利用之间的平衡。

摘要由CSDN通过智能技术生成

Q learning

model free RL algorithm

学习开始之前，Q被初始化为一个可能的任意固定值（由程序员选择）。然后在每个时间t, Agent选择一个动作 $a_t$ ，得到一个奖励 $R_t$ ，进入一个新的状态 $S_{t+1}$ 和Q值更新。其核心是值函数迭代过程，即：
$\alpha$ 为学习率， $\gamma$ 为dicounted factor
在这里插入图片描述

off policy

On-policy-与Off-policy的区别在于：更新价值所使用的方法是沿着既定的策略（on-policy）抑或是新策略（off-policy）。
exploration and exploitation uses differrent strategies
$\epsilon-greedy$ versus $max_a Q$

Temporal-Difference

一定程度上，时间差分算法可以视为Monte Carlo算法的一种发展，Monte Carlo 算法的核心是多次采样求平均的思路，对累计收获的奖励值求平均， $G_t$ 为t时刻的奖励的值， $V_t$ 为对应的价值函数

value iteration
在这里插入图片描述
$V(S_t) -> E_t [G_t]$
这里再加上一个内在的数值关系
$R_{t+1} +V(S_{t+1}) = V(S_t)$
由此我们得到了

在这里插入图片描述

Deep Q learning

利用神经网络近似值函数的方法表示为：
在这里插入图片描述

experience replay

这里的指的是，agent 采集自己的轨迹的历史数据，然后进行minibatch的训练

train

我们可以看到，无论是Q-learning还是DQN，我们发现他们的本质都是value-based 的强化学习方法，利用value iteration 进行优化。因此我们也不难知道，问题的核心就在于如何利用gradient descent的方法得到正确的网络。在这里，正确的网络指的是，input是一个observation或者说是state，可以得到一个正确的 $Q(S_t) -> E_t [G_t]$