强化学习
强化学习方法及实践
布谷AI
凡事尽量简单
展开
-
SEED RL:大规模分布式强化学习框架
SEED RL:Scalable,EfficientDeep-RL,每秒处理数百万张图片的分布式强化学习框架。原创 2020-06-06 06:38:51 · 769 阅读 · 0 评论 -
GA3C:基于GPU的异步并行强化学习算法
GA3C:GPU-basedAsynchronousAdvantageActor-Critic是A3C的GPU实现,混合CPU/GPU,提高学习效率。原创 2020-06-04 09:58:58 · 1394 阅读 · 0 评论 -
强化学习 优势函数(Advantage Function)
优势函数表达在状态s下,某动作a相对于平均而言的优势。从数量关系来看,就是随机变量相对均值的偏差。使用优势函数是深度强化学习极其重要的一种策略,尤其对于基于policy的学习。原创 2020-06-02 06:57:45 · 17417 阅读 · 3 评论 -
TD3:双延迟深度确定性策略梯度算法
TD3是一种面向连续动作空间基于Actor-Critic架构的深度强化学习算法,在DDPG算法基础上,同时对policy网络和value网络进行改进,优化了Q-Value的过高估计问题。原创 2020-05-17 20:16:14 · 5525 阅读 · 0 评论 -
Dueling DQN:Q=V+A
Dueling DQN: Q=V+A.在特征层和输出层之间的全连接层,分成了两部分,一部分用于近似state-value V(s),另一部分近似Advantage-Function A(s, a),求和(combine)得到最终的Q(s, a).原创 2020-05-17 08:17:56 · 325 阅读 · 0 评论 -
并行强化学习算法:A2C/A3C
AsynchronousAdvantageActor-Critic是一种异步的基于优势函数的Actor-Critic并行学习算法。Actor指需要学习的policy π,Critic指需要学习的Value Function。原创 2020-06-02 07:07:09 · 3611 阅读 · 2 评论 -
机器学习 梯度到底是什么?
梯度是个向量,自变量沿着该向量的方向变化,函数值变化最快。在机器学习中,为使损失函数下降最快,我们需要让模型参数沿着梯度的负方向更新,即梯度下降。原创 2020-04-19 14:32:39 · 8494 阅读 · 0 评论 -
强化学习 时序差分学习(Temporal-Difference Learning)
时序差分学习是一种通过时序自举(bootstrap)的方式采样数据,通过最小化差分更新参数的一种model-free学习方法。根据Expected Return的不同近似方法,分为one-step、n-step、TD(λ)、蒙特卡洛方法等。原创 2020-04-24 13:14:05 · 1311 阅读 · 0 评论 -
精讲DQN-深度强化学习开山之作
DQN是Q-learning的深度神经网络实现,针对离散动作空间的model free、off policy深度强化学习算法。原创 2020-05-16 21:47:20 · 1223 阅读 · 0 评论 -
强化学习 Model-Based 和 Model-Free
Model指的是针对环境的建模,即输入Action,环境的响应:Reward和State;当响应是直接映射关系时为model-free,当响应为概率分布时为model-based。原创 2020-04-16 23:31:08 · 4545 阅读 · 0 评论 -
深度强化学习 on-policy 和 off-policy
当生成训练数据基于的Policy、目标值(target value)基于的Policy与当前学习的Policy网络参数一致时,为on-policy;否则为off-policy。原创 2020-05-02 11:19:54 · 2438 阅读 · 0 评论 -
深度强化学习算法的四个问题
要想驾驭一个机器学习算法,我认为需要思考其四个方面:应用场景、目标变量、损失函数及学习过程。深度强化学习也不例外:应用场景 上图是强化学习的交互示意图,Agent给出动作(Action),环境更新状态并返回奖赏(Reward)。 我认为只要能满足以下两点,就可尝试使用强化学习框架: a, 数据流满足示意图的这种交互方式,注意Reward可以有延迟; b, 可以清晰地表示Ac...原创 2020-04-06 19:47:32 · 1689 阅读 · 0 评论 -
强化学习的位置
强化学习一般指深度强化学习;与监督学习、非监督学习并行但在实际学习过程中(episode)又与前者机理一致,所以强化学习也可以看做动态的机器学习;从AI系统的角度,常见的深度学习算法CV、NLP等可以看做是基础功能实现,类比于眼睛、耳朵;而强化学习是基于这些功能的策略控制、决策实现,类比于大脑。...原创 2020-04-05 13:56:46 · 233 阅读 · 0 评论