强化学习笔记——马尔可夫决策过程MDP

X_Xx_Xx_X¾

已于 2023-11-15 00:50:16 修改

阅读量427

点赞数

分类专栏：深度学习文章标签：深度学习人工智能

于 2023-11-15 00:48:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/X132429/article/details/134411013

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习是一种机器学习方法，用于让智能体通过与环境的交互来学习最优策略。在强化学习中，智能体通过观察环境的状态，选择行动并接收奖励或惩罚来学习如何在给定环境中做出最佳决策。马尔可夫决策过程（Markov Decision Process，MDP）是强化学习中常用的数学模型，用于描述智能体与环境之间的交互过程。

MDP由五个要素组成：状态集合（S）、行动集合（A）、状态转移概率（P）、奖励函数（R）和折扣因子（γ）。

状态集合（S）：描述环境的状态。状态可以是离散的，也可以是连续的。例如，在一个迷宫游戏中，状态可以表示智能体所在的位置。
行动集合（A）：描述智能体可以选择的行动。行动可以是离散的，也可以是连续的。例如，在一个迷宫游戏中，行动可以是上、下、左、右。
状态转移概率（P）：描述在给定状态和行动下，智能体转移到下一个状态的概率。例如，在一个迷宫游戏中，智能体在当前位置选择上行动后，转移到下一个位置的概率。
奖励函数（R）：描述在给定状态和行动下，智能体获得的即时奖励。奖励可以是正数、负数或零。例如，在一个迷宫游戏中，智能体在到达终点时获得正奖励，而在撞到墙壁时获得负奖励。
折扣因子（γ）：描述未来奖励的重要性。折扣因子决定了智能体对即时奖励和未来奖励的权衡。如果折扣因子接近于1，智能体更加关注未来奖励；如果折扣因子接近于0，智能体更加关注即时奖励。

在MDP中，智能体的目标是找到一个最优策略，使得在任何给定状态下，选择的行动能够最大化长期累积奖励。为了实现这个目标，可以使用值函数或策略函数。

值函数（Value Function）用于评估在给定状态下，智能体能够获得的长期累积奖励。值函数可以分为状态值函数（V）和动作值函数（Q）。状态值函数表示在给定状态下，智能体能

够获得的长期累积奖励。值函数可以分为状态值函数（V）和动作值函数（Q）。状态值函数表示在给定状态下，智能体能够获得的长期累积奖励的期望值。动作值函数表示在给定状态和行动下，智能体能够获得的长期累积奖励的期望值。

策略函数（Policy Function）用于指导智能体在给定状态下选择行动。策略函数可以是确定性的，即对于每个状态只选择一个行动，也可以是随机的，即对于每个状态选择一个行动的概率分布。最优策略是使得在任何给定状态下，选择的行动能够最大化长期累积奖励的策略。

强化学习的目标是通过学习值函数或策略函数来找到最优策略。常用的强化学习算法包括Q-learning、SARSA、Deep Q-Network（DQN）等。

Q-learning是一种基于动作值函数的强化学习算法。它通过不断更新动作值函数来逼近最优动作值函数。Q-learning的更新规则如下：

Q(s, a) = Q(s, a) + α * (r + γ * maxQ(s’, a’) - Q(s, a))

其中，Q(s, a)表示在状态s下选择行动a的动作值函数，α是学习率，r是即时奖励，γ是折扣因子，s’是下一个状态，a’是在下一个状态下选择的行动。

SARSA是一种基于策略函数的强化学习算法。它通过不断更新策略函数来逼近最优策略。SARSA的更新规则如下：

Q(s, a) = Q(s, a) + α * (r + γ * Q(s’, a’) - Q(s, a))

其中，Q(s, a)表示在状态s下选择行动a的动作值函数，α是学习率，r是即时奖励，γ是折扣因子，s’是下一个状态，a’是在下一个状态下根据当前策略选择的行动。

DQN是一种基于深度神经网络的强化学习算法。它通过使用神经网络来逼近动作值函数。DQN的核心思想是使用经验回放和目标网络来提高学习的稳定性和效率。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。