目录
3. PER DQN(Prioritized Experience Replay DQN)
本文为Datawhale《深度强化学习基础与实践(二)》学习总结。
以下为本文参考资料:
本文图片均源自1。
一、马尔可夫决策过程
1. 基本概念
马尔可夫决策过程(Markov Decision Process, MDP)是强化学习的基本问题模型之一,离散时间的随机控制(Stochastic Control)过程,它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。
基本要素:
- 智能体(Agent):执行决策的主体
- 环境(Environment):智能体所处的外部系统
- 动作(Action):智能体在某个状态下的可执行操作,所有可执行动作的集合称为动作空间,用大写表示
- 策略(Policy):智能体在特定状态下选择动作的规则,一般表示为
- 状态(State):环境的状况,所有状态的集合称为状态空间,用大写表示
- 奖励(Reward):环境对于智能体动作的反馈,一般用或表示
执行流程:在每个时步
- 智能体观测或接受当前环境的状态
- 智能体根据当前策略在当前状态下选择要执行的动作
- 智能体执行的动作被施加到环境中,环境给予反馈即奖励,同时环境的状态转移至
- ,回到步骤1,开始下一次交互,直至环境达到终止状态
由此得到马尔可夫序列
注意:
- 不同于真实世界的物理时间,而是指离散的步骤或时刻,并且系统在每个时刻上都经历一个状态的变化
- 执行第次动作后得到的奖励表示为而不是,主要为了强调执行动作后才能收到奖励
2. 马尔可夫性
马尔可夫决策过程的特性——马尔可夫性,即
含义:给定历史状态和