Datawhale - Task01：马尔可夫过程、DQN算法回顾

最新推荐文章于 2024-07-20 23:54:27 发布

qq_58547591

最新推荐文章于 2024-07-20 23:54:27 发布

阅读量968

点赞数 19

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_58547591/article/details/135658725

版权

本文介绍了马尔可夫决策过程（MDP）的基本概念，包括马尔可夫性、回报和状态转移概率，并详细讲解了DQN算法，包括深度网络、经验回放和目标网络。此外，还探讨了DQN的进阶内容，如Double DQN、Dueling DQN、PER DQN和Noisy DQN，旨在理解强化学习中的智能体与环境的交互以及策略优化。

摘要由CSDN通过智能技术生成

目录

一、马尔可夫决策过程

1. 基本概念

2. 马尔可夫性

3. 回报（Return）

4. 状态转移概率

二、DQN算法

1. 深度网络

2. 经验回放

3. 目标网络

三、DQN算法进阶

3. PER DQN（Prioritized Experience Replay DQN）

本文为Datawhale《深度强化学习基础与实践(二)》学习总结。

以下为本文参考资料：

本文图片均源自1。

一、马尔可夫决策过程

1. 基本概念

马尔可夫决策过程（Markov Decision Process, MDP）是强化学习的基本问题模型之一，离散时间的随机控制（Stochastic Control）过程，它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作，并且在交互过程中学习的角色，环境指的是智能体与之交互的一切外在事物，不包括智能体本身。

基本要素：

智能体（Agent）：执行决策的主体
环境（Environment）：智能体所处的外部系统
动作（Action）：智能体在某个状态下的可执行操作，所有可执行动作的集合称为动作空间，用大写 $A$ 表示
策略（Policy）：智能体在特定状态下选择动作的规则，一般表示为 $\pi: S \to A$
状态（State）：环境的状况，所有状态的集合称为状态空间，用大写 $S$ 表示
奖励（Reward）：环境对于智能体动作的反馈，一般用 $r$ 或 $R$ 表示

执行流程：在每个时步 $t = 1, 2, ..., T$

智能体观测或接受当前环境的状态 $s_{t}$
智能体根据当前策略在当前状态 $s_{t}$ 下选择要执行的动作 $a_{t}$
智能体执行的动作 $a_{t}$ 被施加到环境中，环境给予反馈即奖励 $r_{t + 1}$ ，同时环境的状态转移至 $s_{t + 1}$
$t \leftarrow t + 1$ ，回到步骤1，开始下一次交互，直至环境达到终止状态

由此得到马尔可夫序列

$s_{0}, a_{0}, r_{1}, s_{1}, a_{1}, r_{2}, s_{2}, a_{2}, \cdots, s_{T}, a_{T}$

注意：

$t$ 不同于真实世界的物理时间，而是指离散的步骤或时刻，并且系统在每个时刻上都经历一个状态的变化
执行第 $t$ 次动作后得到的奖励表示为 $r_{t + 1}$ 而不是 $r_{t}$ ，主要为了强调执行动作后才能收到奖励

2. 马尔可夫性

马尔可夫决策过程的特性——马尔可夫性，即

$P(s_{t + 1} | s_{t}, a_{t}, s_{t-1}, a_{t-1}, \cdots, s_{0}, a_{0}) = P(s_{t + 1} | s_{t}, a_{t})$

含义：给定历史状态和

最低0.47元/天解锁文章

关注

19
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Datawhale - Task01：马尔可夫过程、DQN算法回顾

本文为Datawhale《深度强化学习基础与实践(二)》学习总结。本文图片均源自1。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。