强化学习笔记——马尔可夫决策过程MDP

强化学习是一种机器学习方法,用于让智能体通过与环境的交互来学习最优策略。在强化学习中,智能体通过观察环境的状态,选择行动并接收奖励或惩罚来学习如何在给定环境中做出最佳决策。马尔可夫决策过程(Markov Decision Process,MDP)是强化学习中常用的数学模型,用于描述智能体与环境之间的交互过程。

MDP由五个要素组成:状态集合(S)、行动集合(A)、状态转移概率(P)、奖励函数(R)和折扣因子(γ)。

  1. 状态集合(S):描述环境的状态。状态可以是离散的,也可以是连续的。例如,在一个迷宫游戏中,状态可以表示智能体所在的位置。

  2. 行动集合(A):描述智能体可以选择的行动。行动可以是离散的,也可以是连续的。例如,在一个迷宫游戏中,行动可以是上、下、左、右。

  3. 状态转移概率(P):描述在给定状态和行动下,智能体转移到下一个状态的概率。例如,在一个迷宫游戏中,智能体在当前位置选择上行动后,转移到下一个位置的概率。

  4. 奖励函数(R):描述在给定状态和行动下,智能体获得的即时奖励。奖励可以是正数、负数或零。例如,在一个迷宫游戏中,智能体在到达终点时获得正奖励,而在撞到墙壁时获得负奖励。

  5. 折扣因子(γ):描述未来奖励的重要性。折扣因子决定了智能体对即时奖励和未来奖励的权衡。如果折扣因子接近于1,智能体更加关注未来奖励;如果折扣因子接近于0,智能体更加关注即时奖励。

在MDP中,智能体的目标是找到一个最优策略,使得在任何给定状态下,选择的行动能够最大化长期累积奖励。为了实现这个目标,可以使用值函数或策略函数。

值函数(Value Function)用于评估在给定状态下,智能体能够获得的长期累积奖励。值函数可以分为状态值函数(V)和动作值函数(Q)。状态值函数表示在给定状态下,智能体能

够获得的长期累积奖励。值函数可以分为状态值函数(V)和动作值函数(Q)。状态值函数表示在给定状态下,智能体能够获得的长期累积奖励的期望值。动作值函数表示在给定状态和行动下,智能体能够获得的长期累积奖励的期望值。

策略函数(Policy Function)用于指导智能体在给定状态下选择行动。策略函数可以是确定性的,即对于每个状态只选择一个行动,也可以是随机的,即对于每个状态选择一个行动的概率分布。最优策略是使得在任何给定状态下,选择的行动能够最大化长期累积奖励的策略。

强化学习的目标是通过学习值函数或策略函数来找到最优策略。常用的强化学习算法包括Q-learning、SARSA、Deep Q-Network(DQN)等。

Q-learning是一种基于动作值函数的强化学习算法。它通过不断更新动作值函数来逼近最优动作值函数。Q-learning的更新规则如下:

Q(s, a) = Q(s, a) + α * (r + γ * maxQ(s’, a’) - Q(s, a))

其中,Q(s, a)表示在状态s下选择行动a的动作值函数,α是学习率,r是即时奖励,γ是折扣因子,s’是下一个状态,a’是在下一个状态下选择的行动。

SARSA是一种基于策略函数的强化学习算法。它通过不断更新策略函数来逼近最优策略。SARSA的更新规则如下:

Q(s, a) = Q(s, a) + α * (r + γ * Q(s’, a’) - Q(s, a))

其中,Q(s, a)表示在状态s下选择行动a的动作值函数,α是学习率,r是即时奖励,γ是折扣因子,s’是下一个状态,a’是在下一个状态下根据当前策略选择的行动。

DQN是一种基于深度神经网络的强化学习算法。它通过使用神经网络来逼近动作值函数。DQN的核心思想是使用经验回放和目标网络来提高学习的稳定性和效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值