
强化学习笔记
liaojq2020
这个作者很懒,什么都没留下…
展开
-
强化学习RL学习笔记9-近端策略优化算法(Proximal Policy Optimization, PPO)
强化学习笔记专栏传送上一篇:强化学习RL学习笔记7-表格型方法(tabular methods)下一篇:持续创作中…目录强化学习笔记专栏传送前言From On-policy to Off-policyImportance Sampling前言强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。本文是笔者对强化学习的原创 2020-12-11 22:07:11 · 1839 阅读 · 3 评论 -
强化学习RL学习笔记8-策略梯度(Policy Gradient)
强化学习笔记专栏传送上一篇:强化学习RL学习笔记7-表格型方法(tabular methods)下一篇:持续创作中…目录强化学习笔记专栏传送前言Policy Gradient根据policy gradient更新policy的过程TipsTip 1: Add a BaselineTip 2: Assign Suitable CreditREINFORCE: Monte Carlo Policy Gradient前言强化学习(Reinforcement Learning, RL),又称再励学习、评价原创 2020-12-10 22:40:04 · 1112 阅读 · 1 评论 -
强化学习RL学习笔记7-表格型方法(tabular methods)
强化学习笔记专栏传送上一篇:强化学习RL学习笔记5-马尔可夫决策过程(MDP)(2)下一篇:持续创作中…目录强化学习笔记专栏传送前言MDP1.Model-based2.Model-free3.Model-based vs. Model-freeQ-tableModel-free Prediction1.Monte-Carlo Policy Evaluation2.Temporal Difference前言强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强原创 2020-12-07 09:53:00 · 1515 阅读 · 1 评论 -
强化学习RL学习笔记6-马尔可夫决策过程(MDP)(3)
强化学习笔记专栏传送上一篇:强化学习RL学习笔记5-马尔可夫决策过程(MDP)(2)下一篇:持续创作中…目录强化学习笔记专栏传送前言Markov Decision Process(MDP)(马尔可夫决策过程)11.MDP Control(1)Policy Iteration(2)Value IterationPrinciple of OptimalityDeterministic Value IterationDifference between Policy Iteration and Value原创 2020-12-05 10:35:22 · 598 阅读 · 1 评论 -
强化学习RL学习笔记5-马尔可夫决策过程(MDP)(2)
强化学习笔记专栏传送上一篇:强化学习RL学习笔记3-gym了解与coding实践下一篇:持续创作中…目录强化学习笔记专栏传送前言Markov Decision Process(MDP)(马尔可夫决策过程)1.MDP2.Policy in MDP3.Comparison of MP/MRP and MDP4.Value function for MDP5.Bellman Expectation Equation前言强化学习(Reinforcement Learning, RL),又称再励学习、评价学原创 2020-12-04 23:07:35 · 773 阅读 · 1 评论 -
强化学习RL学习笔记4-马尔可夫决策过程(MDP)(1)
强化学习笔记专栏传送上一篇:强化学习RL学习笔记2-概述(2)下一篇:持续创作中…目录强化学习笔记专栏传送前言Markov Process(MP)(马尔可夫过程)1.Markov Property(马尔可夫性质)2.Markov Process(马尔可夫过程)3.Example of MPMarkov Reward Process(MRP)(马尔科夫奖励过程)1.Example of MRP2.Return and Value function3.Why Discount Factor4.Bellma原创 2020-12-02 08:12:15 · 637 阅读 · 1 评论 -
强化学习RL学习笔记3-gym了解与coding实践
强化学习笔记专栏传送上一篇:强化学习RL学习笔记1-概述(1)下一篇:持续创作中…目录强化学习笔记专栏传送前言Experiment with Reinforcement Learning1.gym前言强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。本文是笔者对强化学习的一点学习记录,成文于笔者刚开始接触强化学习原创 2020-12-01 20:03:27 · 898 阅读 · 1 评论 -
强化学习RL学习笔记2-概述(2)
强化学习笔记专栏传送上一篇:强化学习RL学习笔记1-概述(1)下一篇:持续创作中…目录强化学习笔记专栏传送前言Major Components of an RL Agent(RL Agent中的主要构成)1.Policy2.Value Function3.ModelTypes of RL Agents(RL Agents的类型)1.不同决策方式的Agents2.是否学习环境模型Learning and Planning1.Reinforcement Learning2.PlanningExplorat原创 2020-12-01 12:23:23 · 630 阅读 · 0 评论 -
强化学习RL学习笔记1-概述(1)
强化学习笔记专栏传送上一篇:H.266/VVC-VTM代码学习-帧内预测16-解码端xIntraRecBlk完成TU指定分量帧内重建(附ISP变换和预测尺寸不同、JCCR、LMCS简述)下一篇:持续创作中…目录强化学习笔记专栏传送前言Reinforcement Learning(强化学习)1.强化学习讨论的问题2.强化学习和监督学习对比3.一些概念Introduction to Sequential Decision Making(序列决策)1.Agent and Environment2.Rewar原创 2020-12-01 09:52:52 · 820 阅读 · 0 评论