强化学习
文章平均质量分 90
Mystery_zero
神秘人Zero
展开
-
强化学习douzero模型伪代码
强化学习douzero模型伪代码原创 2022-06-20 00:15:10 · 1407 阅读 · 0 评论 -
强化学习-Vanilla Policy Gradient(VPG)
文章目录BackgroundQuick FactsKey EquationsExploration vs. ExploitationPseudocodeDocumentationReferancesBackground策略梯度背后的关键思想是提高导致更高回报的操作的概率,并降低导致低回报的操作的概率,直到获得最佳策略。Quick FactsVPG 是一个on-policy算法VPG 能...翻译 2020-01-26 11:42:41 · 3037 阅读 · 0 评论 -
Soft-Actor-Critic-强化学习算法
文章目录BackgroundQuick FactsKey EquationsEntropy-Regularized Reinforcement LearningSoft Actor-CriticExploration vs. ExploitationPseudocodeDocumentationBackgroundSAC算法,它以off-policy方式优化随机策略,从而在随机策略优化和DDP...翻译 2020-01-26 11:29:37 · 2724 阅读 · 0 评论 -
Twin Delayed DDPG(TD3)-强化学习算法
文章目录BackgroundQuick FactsKey EquationsExploration vs. ExploitationPseudocodeDocumentationBackground尽管DDPG有时可以实现出色的性能,但它在超参数和其他类型的调整方面通常很脆弱。 DDPG的常见故障模式是,学习到的Q函数开始显着高估Q值,然后导致策略中断,因为它利用了Q函数中的错误。 双延迟DD...翻译 2020-01-22 23:12:44 · 4791 阅读 · 0 评论 -
PolicyGradientMethods-强化学习
文章目录Neural network as ActorGradient AscentMonte Carlo Policy GradientAdd a BaselineCriticActor-CriticTipsA3CPathwise Derivative Policy GradientNeural network as Actor用一个Actor(Policy)玩游戏,在一个episode中...原创 2019-12-26 15:35:39 · 286 阅读 · 1 评论 -
强化学习基础
文章目录强化学习基础概念MP策略π\piπRewardState Value functionState Value Bellman equationState-Action Value functionState-Action Value Bellman equationLook ahead最优值函数Greedyϵ\epsilonϵ-greedysoftmax强化学习算法有模型动态规划无模型基于...原创 2020-01-04 13:56:19 · 304 阅读 · 0 评论 -
Policy Optimization-强化学习业界手册
文章目录Deriving the Simplest Policy Gradient1.轨迹的概率 (Probability of a Trajectory)2.对数导数技巧3.轨迹的对数概率4.环境函数的梯度5.轨迹的梯度对数概率综上所述,我们得出以下结论:Implementing the Simplest Policy Gradient1.建立策略网络2.构建损失函数3.运行训练的一个Epoch...翻译 2020-01-21 13:39:23 · 636 阅读 · 0 评论 -
强化学习核心文章一百篇
文章目录1. Model-Free RLa. Deep Q-Learningb. Policy Gradientsc. Deterministic Policy Gradientsd. Distributional RLe. Policy Gradients with Action-Dependent Baselinesf. Path-Consistency Learningg. Other Di...转载 2020-01-21 13:57:26 · 1076 阅读 · 0 评论 -
DDPG-强化学习算法
文章目录BackgroundQuick FactsKey EquationsDDPG的Q-learning部分DDPG的策略学习部分Exploration vs. Exploitation(探索vs.利用)DocumentationReferencesWhy These Papers?BackgroundDDPG是一种同时学习Q-函数和策略的算法。它使用off-policy的数据以及bellm...翻译 2020-01-22 15:20:26 · 3726 阅读 · 0 评论 -
PPO-强化学习算法
文章目录Quick FactsKey EquationsExploration vs. ExploitationPseudocodeDocumentatonPPO受到与TRPO相同的问题的激励:我们如何才能使用当前拥有的数据在策略上采取最大可能的改进步骤,而又不会走得太远而导致意外导致性能下降? 在TRPO试图通过复杂的二阶方法解决此问题的地方,PPO是一阶方法的族,它使用其他一些技巧来使新策略...翻译 2020-01-22 20:46:42 · 4760 阅读 · 0 评论