Datawhale - Task01:马尔可夫过程、DQN算法回顾

本文介绍了马尔可夫决策过程(MDP)的基本概念,包括马尔可夫性、回报和状态转移概率,并详细讲解了DQN算法,包括深度网络、经验回放和目标网络。此外,还探讨了DQN的进阶内容,如Double DQN、Dueling DQN、PER DQN和Noisy DQN,旨在理解强化学习中的智能体与环境的交互以及策略优化。
摘要由CSDN通过智能技术生成

目录

一、马尔可夫决策过程

1. 基本概念

2. 马尔可夫性

3. 回报(Return)

4. 状态转移概率

二、DQN算法

1. 深度网络

2. 经验回放

3. 目标网络

三、DQN算法进阶

1. Double DQN

2. Dueling DQN

3. PER DQN(Prioritized Experience Replay DQN)

4. Noisy DQN


        本文为Datawhale《深度强化学习基础与实践(二)》学习总结。

        以下为本文参考资料:

  1. datawhalechina/joyrl-book (github.com)
  2. QiangLong2017/Deep-Reiforcement-Learning (github.com)

        本文图片均源自1。

一、马尔可夫决策过程

1. 基本概念

        马尔可夫决策过程(Markov Decision Process, MDP)是强化学习的基本问题模型之一,离散时间的随机控制(Stochastic Control)过程,它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。

基本要素

  • 智能体(Agent):执行决策的主体
  • 环境(Environment):智能体所处的外部系统
  • 动作(Action):智能体在某个状态下的可执行操作,所有可执行动作的集合称为动作空间,用大写A表示
  • 策略(Policy):智能体在特定状态下选择动作的规则,一般表示为\pi: S \to A
  • 状态(State):环境的状况,所有状态的集合称为状态空间,用大写S表示
  • 奖励(Reward):环境对于智能体动作的反馈,一般用rR表示

执行流程:在每个时步t = 1, 2, ..., T

  1. 智能体观测或接受当前环境的状态s_{t}
  2. 智能体根据当前策略在当前状态s_{t}下选择要执行的动作a_{t}
  3. 智能体执行的动作a_{t}被施加到环境中,环境给予反馈即奖励r_{t + 1},同时环境的状态转移至s_{t + 1}
  4. t \leftarrow t + 1,回到步骤1,开始下一次交互,直至环境达到终止状态

由此得到马尔可夫序列

$ s_{0}, a_{0}, r_{1}, s_{1}, a_{1}, r_{2}, s_{2}, a_{2}, \cdots, s_{T}, a_{T} $

注意

  1. t不同于真实世界的物理时间,而是指离散的步骤或时刻,并且系统在每个时刻上都经历一个状态的变化
  2. 执行第t次动作后得到的奖励表示为r_{t + 1}而不是r_{t},主要为了强调执行动作后才能收到奖励

2. 马尔可夫性

        马尔可夫决策过程的特性——马尔可夫性,即

P(s_{t + 1} | s_{t}, a_{t}, s_{t-1}, a_{t-1}, \cdots, s_{0}, a_{0}) = P(s_{t + 1} | s_{t}, a_{t})

含义:给定历史状态和

  • 19
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值