深度强化学习
玄月无疆
这个作者很懒,什么都没留下…
展开
-
【深度强化学习笔记】--第二节:马尔可夫决策过程
1.马尔可夫性质马尔可夫决策过程(Markov Decision Process, MDP)独有性质即当前时刻的状态仅与前一时刻的状态和动作有关,与其他时刻的状态和动作条件独立。等式右侧的条件概率被称为MDP的状态间的转移概率 。马尔可夫性质是所有马尔可夫模型共有的性质,但相比于马尔可夫链,MDP的转移概率加入了智能体的动作,其马尔可夫性质也与动作有关2.MDP基本组成部分状态集合动作集合状态转移概率函数奖励函数策略函数...原创 2021-08-20 16:34:06 · 290 阅读 · 0 评论 -
【深度强化学习笔记】--第一节:强化学习模型
1.强化学习强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 [1] 。强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL) [1] ,以及主动强原创 2021-08-19 22:47:56 · 2371 阅读 · 0 评论