![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习(RL)学习分享
文章平均质量分 89
介绍基础的强化学习算法,比如DQN,DDQN,DDPG,SAC,PPO等
Eagle Xu
这个作者很懒,什么都没留下…
展开
-
(九)强化学习——带基线的策略梯度,REINFORCEMENT with baseline,Advantage Actor-Critic(A2C)
策略网络和之前是一样的,输入是状态s,输出是一个向量,每一个元素表示一个动作的概率。本节介绍的带基线的策略梯度(PolicyGradient with Baseline) 可以大幅提升策略梯度方法的表现。两个神经网络的结构与带基线的REINFORCE算法中的完全相同,但是训练更新网络参数的方式不同。把b作为动作价值函数Qπ(S,A)的基线,对策略梯度没有影响,至于为什么对梯度策略没有影响,这里就不证明了,参考北大王树森的课程。不论b的取值是0还是Vπ(s),得到的随机梯度gb(s,a;原创 2024-03-19 19:54:16 · 1087 阅读 · 0 评论 -
(八)强化学习——策略梯度,REINFORCEMENT算法,Actor-Critic
Qπ(st,a1)表示的就是在当前状态下执行动作a1的价值,就是幕1中st到终止状态的奖励的期望值。Vπ(st)就是Qπ(st,a1),Qπ(st,a2),Qπ(st,a3)这3个对于动作a的一个期望。一旦神经网络训练完成,我们只要输入一个状态,神经网络就能准确的输出在这个状态下各个动作的价值,我们就能选出Q值最大的那个动作执行,也就是完成了一次任务序列的一次最优决策。这个网络是不是很眼熟,和近似状态-动作Q函数的神经网络很像,只是输出不一样,这里的输出是每个动作对应的概率,而不是每个动作对应的Q值。原创 2024-03-13 15:28:49 · 936 阅读 · 0 评论 -
(七)强化学习——DQN,DDQN,Dueling DQN,Rainbow DQN
从原始DQN的训练步骤,我们可以看出DQN是每一幕,每一幕的训练,从幕头到幕尾终止状态,而幕是智能体与环境的连续交互过程留下的状态,动作,奖励序列,这就导致了更新Q网络的连续两个状态的相关性很强,这对Q网络的训练是不利的,而且由于幕更新完后就直接丢弃了,会造成经验的浪费。rainbbow,中文意思就是彩虹,彩虹是多条颜色的,就像对于DQN改进的多个方面,经验回放的DDQN,优先经验的DDQN,,Dueling DDQN等等,什么样的组合才是最好的,这篇论文做了详细的消融实验,结果如下图所示。原创 2024-03-11 16:15:23 · 987 阅读 · 0 评论 -
(六) 强化学习——Sarsa,Saras(λ),Q-Learning算法
对于每一个状态序列,在 S 状态时采取的行为 A 是基于当前行为策略的,也就是该行为是与环境进行交互实际使用的行为,也就是说Sarsa是同轨策略下的时序差分控制。对于sarsa算法和Q-learning算法,我们可以从他们的动作-状态价值函数的更新可以看出,sarsa算法在更新Q值的时候是考虑了未来下一个动作的Q值的,而Q-learning没有,而是考虑了当前状态下的最大Q值。中,用于评估或者改进的策略与生成采样数据的策略是不同的,即生成的数据“离开”了待优化的策略所决定的决策序列轨迹。原创 2024-02-26 17:20:35 · 995 阅读 · 0 评论 -
(五)强化学习——蒙特卡罗强化学习(MC) and 时序差分强化学习(TD),n步时序差分预测(n步TD)
蒙特卡罗强化学习(MC) and 时序差分强化学习(TD)原创 2023-08-11 09:18:24 · 340 阅读 · 0 评论 -
(四) 强化学习——动态规划(DP)
在开始之前,大家肯定会有个疑惑,什么是动态规划?动态规划和强化学习又有啥子关系。以前在学习动态规划的时候可没听说过强化学习,现在学习强化学习为什么要了解动态规划?首先我们知道动态规划是一类优化方法。那我们遇到什么类型问题的时候用动态规划算法?动态规划算法把求解复杂问题分解为求解子问题,通过求解子问题进而得到整个问题的解。在解决子问题的时候,其结果通常需要存储起来被用来解决后续复杂问题。原创 2023-07-20 22:33:36 · 506 阅读 · 0 评论 -
(三)强化学习——策略函数π and 价值函数、贝尔曼方程
也就是说,当智能体在与环境不断的交互过程中,Gt在不断的变大的过程中,其交互的这些状态的V值也是越来越大的。因为v’(v星,格式原因,‘代替*)是策略的价值函数,它必须满足前面提到的贝尔曼方程中状态和价值的一致性条件。但因为他是最优的价值函数,所以v’(v星)的一致性条件可以用一种特殊的形式表示,而不用拘泥于特定的策略。下面来看看价值函数的定义,我们把策略π下状态s的价值函数记为Vπ(s),即从状态s开始,智能体按照策略π进行决策所获得的回报的概率期望值。一种是期望的形式,一种是连加的形式(涉及到p)。原创 2023-07-06 19:42:37 · 1054 阅读 · 0 评论 -
(二)强化学习——有限的马尔可夫决策过程(有限MDP)
有限MDP原创 2023-06-28 14:21:00 · 239 阅读 · 0 评论 -
(一)强化学习——发展历程
这个其实很好理解,就像我们训练家里的小狗一样。我们给小狗一个指令,小狗若是做出了符合我们预期的动作,我们就会给狗子一个奖励,若是不符合预期,就给一个惩罚,久而久之,狗子就能根据指令做出正确的动作。在强化学习中,DP的核心思想是使用价值函数来结构化地组织对最优策略的搜索。上面所提到的很多名词,动态规划,价值函数,时序差分法,贝尔曼方程,Q学习,等等这些名词。理解这些名词,了解这些名词的本质,有助于学习强化学习的相关算法。强化学习的历史发展有两条同样源远流长的主线,在交汇于现代强化学习之前他们是相互独立的。原创 2023-06-27 16:33:56 · 376 阅读 · 0 评论