强化学习
文章平均质量分 76
有一个进大厂的梦想
这个作者很懒,什么都没留下…
展开
-
强化学习(一)
强化学习(一)什么是强化学习强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习算法类别通过自己对强化学习算法的理解大至可分为基于模型与不基于模型的两种,我们着重讲不基于模型的算法。分为Q_Learning家族和Policy Optimization家族,就是值策略和梯度策略。经典的DQN,PG,两个不同的算原创 2020-12-20 17:17:44 · 260 阅读 · 0 评论 -
强化学习-DDQN(三)
强化学习-DDQN(三)DDQN的算法建模DDQN和Nature DQN一样,也有一样的两个Q网络结构。在Nature DQN的基础上,通过解耦目标Q值动作的选择和目标Q值的计算这两步,来消除过度估计的问题。在上一节里,Nature DQN对于非终止状态,其目标Q值的计算式子是:yj=Rj+γmaxa′Q′(ϕ(S′j),A′j,w′) 在DDQN这里,不再是直接在目标Q网络里面找各个动作中最大Q值,而是先在当前Q网络中先找出最大Q值对应的动作,即amax(S′j,w)=argmaxa′Q原创 2020-12-21 21:40:14 · 3209 阅读 · 2 评论 -
强化学习(二)-DQN
强化学习-DQN(二)DQN(Deep Q Learning)Deep Q-Learning算法的基本思路来源于Q-Learning。但是和Q-Learning不同的地方在于,它的Q值的计算不是直接通过状态值s和动作来计算,而是通过上面讲到的Q网络来计算的。这个Q网络是一个神经网络,我们一般简称Deep Q-Learning为DQN。DQN的输入是我们的状态s对应的状态向量ϕ(s), 输出是所有动作在该状态下的动作价值函数Q。Q网络可以是DNN,CNN或者RNN,没有具体的网络结构要求。DQN主要使原创 2020-12-20 19:49:08 · 1873 阅读 · 1 评论 -
从Q-Learning到DQN
Q-Learning1. 什么是Q-Learning Q-Learning算法是一种使用时序差分求解强化学习控制问题的方法。通过当前的状态S,动作A,即时奖励R,衰减因子γ,探索率ϵ,就最最优的动作价值函数Q和最有策略π。S: 表示环境的状态,在t时刻环境的状态StA:agent的动作,在t时刻采取的动作AtR:环境的奖励,在t时刻agent在状态St采取动作At对应的奖励Rt+1会在t+1时刻得到γ原创 2020-12-30 14:17:33 · 798 阅读 · 0 评论 -
多智能体强化学习入门QMIX
多智能体强化学习入门QMIX引言Qmix是多智能体强化学习中比较经典的算法之一,在VDN的基础上做了一些改进,与VDN相比,在各个agent之间有着较大差异的环境中,表现的更好。1. IQL与VDNIQL(Independent Q_Learning),是一种比较暴力的解决问题的方法,每个agent都各自为政,自己学习自己的,没有一个共同的目标。导致算法最终很难收敛。但是在实际一些问题中有不错的表现。VDN(Value-Decomposition Networks For CooperativeM原创 2021-07-30 14:51:16 · 3985 阅读 · 4 评论 -
强化学习 | COMA
强化学习 | COMA引言在多agent的强化学习算法中,前面我们讲了QMIX,其实VDN是QMIX的一个特例,当求导都为1的时候,QMIX就变成了VDN。QTRAN也是一种关于值分解的问题,在实际的问题中QTRAN效果没有QMIX效果好,主要是QTRAN的约束条件太过于松散,导致实际没有理论效果好。但是QTRAN有两个版本,QTRAN_BASE和QTRAN_ALT,第二版本效果比第一要好,在大部分实际问题中和QMIX的效果差不多。上述的算法都是关于值分解的,每个agent的回报都是一样的。如果在一局王原创 2021-07-30 14:49:32 · 514 阅读 · 0 评论 -
浅谈TD3:从算法原理到代码实现
浅谈TD3:从算法原理到代码实现引言众所周知,在基于价值学习的强化学习算法中,如DQN,函数近似误差是导致Q值高估和次优策略的原因。我们表明这个问题依然在AC框架中存在,并提出了新的机制去最小化它对演员(策略函数)和评论家(估值函数)的影响。我们的算法建立在双Q学习的基础上,通过选取两个估值函数中的较小值,从而限制它对Q值的过高估计。(出自TD3论文摘要)1. 什么是TD3TD3是Twin Delayed Deep Deterministic policy gradient algorithm的全称原创 2021-07-30 14:44:29 · 2650 阅读 · 0 评论