强化学习算法---Q-learning

最新推荐文章于 2024-05-30 09:00:17 发布

小济公

最新推荐文章于 2024-05-30 09:00:17 发布

阅读量464

点赞数 1

分类专栏：算法学习文章标签： DQN Q-LEARNING 强化学习

本文链接：https://blog.csdn.net/weixin_43185348/article/details/100661996

版权

算法学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Q-learning 算法的步骤：
<1> 给定参数lamda和奖励矩阵R
<2>令Q[]为0
<3> for each episode
3.1 随机选择初始的状态s
3.2 未达到目标状态，则执行以下几步：
（1）在当前状态s的所有可能行为中选取一个行为a
（2）按照Q(s，a)=R（s，a）+lamda*max{Q(s1,a1)}，其中s1表示下一时刻的状态，a1表示下一时刻的动作；
来计算Q(s,a);
Q-learning算法的短处：基本的Q-learning算法中智能体可以从任意的初始状态通过自学习得到最优的策略，然而，它需要大量的空间和时间计算和存储Q（s，a），为得到最优值，每一个Q值都需要被遍历到，为了解决这个问题，现有的研究通常是选择放弃寻找最优解，而根据已有信息选择近似求解方法，一个通常使用的方法就是根据过去的经验生成一个环境模型来产生Q值估计的模拟经验，或者通过神经网络与函数逼近相结合的方法。

DQN（加入了神经网络的Q-learning）
（1）神经网络的作用：
将动作和状态作为神经网络的输入，经过神经网络的分析之后得到Q值，这样就没有必要记录Q值；
第二种是输入状态值，输出所有的动作值，然后按照Q-learning的原则，直接选择拥有最大值的动作；
（2）更新神经网络：
神经网络需要训练才能输出准确的Q值，那么在RL中怎么训练神经网络呢？首先，我们需要a1，a2整的正确的Q值，这个Q值用之前Q-learning中的Q现实来代替，同样，我们还需要一个Q估计来实现神经网络的更新；
（3）DQN的两大利器：
experience reply：记忆之前的经历进行学习；
fixed Q-targets：在DQN中，使用两个结构相同但参数不同的神经网络，预测Q估计的神经网络具备最新的参数，预测Q现实的神经网络使用的参数是很久之前的。

DQN神经网络
为了使用tensorflow来实现DQN，比较推荐的方式是搭建两个神经网络：
target-NET：用于预测Q-target，它不会实时更新参数；
evel-NET:用于预测Q-evel，这个神经网络拥有最新的神经网络参数；

小济公

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习算法---Q-learning

Q-learning 算法的步骤：<1> 给定参数lamda和奖励矩阵R<2>令Q[]为0<3> for each episode3.1 随机选择初始的状态s3.2 未达到目标状态，则执行以下几步：（1）在当前状态s的所有可能行为中选取一个行为a（2）按照Q(s，a)=R（s，a）+lamda*max{Q(s1,a1)}，其中s1表示下一时刻的状态...
复制链接

扫一扫

专栏目录