强化学习笔记（二）

feiba54

已于 2022-01-23 10:42:53 修改

阅读量617

点赞数

分类专栏：强化学习文章标签：深度学习机器学习神经网络

于 2022-01-06 12:16:47 首次发布

本文链接：https://blog.csdn.net/qq_39540454/article/details/122340829

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文深入探讨了三种强化学习算法：Q-learning、Sarsa和DQN。Q-learning是离线学习，基于价值的单步更新；Sarsa是在线学习，其采样策略与目标策略相同；DQN则通过神经网络替代Q-table，引入经验回放和固定目标网络解决训练稳定性问题。经验回放打破数据相关性，目标网络保证标签稳定性，助力网络收敛。

摘要由CSDN通过智能技术生成

Q-learning: 基于价值，单步更新，离线学习（采样策略不是真实的目标策略）
Sarsa: 基于价值，单步更新，在线学习（走一步学一步，采样策略与目标策略相同）
Policy Gradients: 基于概率，回合更新（基础版）

DQN

DQN: Deep Q-learning Network, 获取Q(s,a)值的方法从Q-table表格式存储检索换成神经网络计算生成。输入是state，输出是该state下每个action的Q(s, a)。

经验回放 Experience Replay：在replay buffer中存储(s, a, r, s’)，训练时随机选择minibatch进行梯度下降更新参数。这样打破了数据之间的相关性，避免因为参数theta被调整之后相近的状态s被波及。减少了不同批次训练数据差距过大的问题，也克服了神经网络的健忘。(Sarsa也用不了这个，因为需要存储(s,a,r,s’,a’)而a’必须是当前policy产生的）
固定目标网络 Target Network：预测值和标签都是同一个网络产生的，那么当利用二者之差作为Loss更新网络权重时，标签也会变化，这导致网络不容易收敛。->引入target network Q_theta’，和产生预测值的网络结构一致，但theta’更新不频繁，隔一段时间才复制一次theta，以保证target的稳定性。

feiba54

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记（二）

Q-learning: 基于价值，单步更新，离线学习（采样策略不是真实的目标策略）Sarsa: 基于价值，单步更新，在线学习（走一步学一步，采样策略与目标策略相同）Policy Gradients: 基于概率，回合更新（基础版）DQNDQN: Deep Q-learning Network, 获取Q(s,a)值的方法从Q-table表格式存储检索换成神经网络计算生成。输入是state，输出是该state下每个action的Q(s, a)。经验回放 Experience Replay：在replay
复制链接

扫一扫

专栏目录