强化学习(Reinforcement Learning, RL)中的状态价值函数(State Value Function)

1. 强化学习的基本概念和框架

强化学习是一种机器学习范式,其核心是智能体(Agent)通过与环境(Environment)的交互来学习如何采取行动以最大化长期累积奖励。强化学习可以形式化为一个马尔可夫决策过程(Markov Decision Process, MDP),其关键组成部分包括:

  • 状态(State, S):描述环境当前的情况。例如,在一个迷宫游戏中,智能体的位置是一个状态。
  • 动作(Action, A):智能体在某个状态下可以采取的行为。例如,迷宫中的“上、下、左、右”移动。
  • 奖励(Reward, R):智能体执行动作后从环境获得的反馈信号。例如,走出迷宫得到+10奖励,撞墙得到-1奖励。
  • 转移概率(Transition Probability, P):描述从当前状态 s s s 采取动作 a a a 后转移到下一个状态 s ′ s' s 的概率,即 P ( s ′ ∣ s , a ) P(s' | s, a) P(ss,a)
  • 策略(Policy, π):智能体的决策规则,定义了在状态 s s s 下选择动作 a a a 的概率,即 π ( a ∣ s ) π(a | s) π(as)
  • 折扣因子(Discount Factor, γ):用于权衡短期奖励和长期奖励, 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0γ1。当 γ γ γ 接近1时,智能体更重视未来奖励。

强化学习的目标是找到一个最优策略 π ∗ π^* π,使得智能体在遵循该策略时,能够最大化期望累积折扣奖励,即:
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + ⋯ = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^\infty \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+=k=0γkRt+k+1
其中 G t G_t Gt 是从时间步 t t t 开始的累积回报(Return)。

状态价值函数是用来评估某个状态“好坏”的工具,衡量的是在某个策略下,从该状态开始能获得的期望累积奖励。


2. 状态价值函数的定义和意义

状态价值函数(State Value Function)表示在给定策略 π π π 下,从某个状态 s s s 开始,智能体遵循策略 π π π 所能获得的期望累积折扣奖励。用数学表达为:
v π ( s ) = E π [ G t ∣ S t = s ] v_π(s) = \mathbb{E}_π[G_t | S_t = s] vπ(s)=Eπ[GtSt=s]
其中:

  • v π ( s ) v_π(s) vπ(s) 是状态 s s s 的价值。
  • E π [ ⋅ ] \mathbb{E}_π[\cdot] Eπ[] 表示在策略 π π π 下的期望。
  • G t G_t Gt 是累积回报,如上所述。

直观理解

  • 状态价值函数回答的问题是:“如果我从状态 s s s 开始,按照策略 π π π 行动,平均能拿到多少奖励?”
  • 它衡量了状态的“长期价值”,考虑了所有可能的未来路径及其概率。
  • 例如,在迷宫游戏中,靠近出口的状态 s s s 通常有较高的 v π ( s ) v_π(s) vπ(s),因为从那里更容易获得高奖励;远离出口或靠近墙的状态价值较低。

为什么需要状态价值函数?

  • 它帮助智能体评估不同状态的优劣,从而指导决策。
  • 它是强化学习中策略评估(Policy Evaluation)和策略改进(Policy Improvement)的基础。

3. 状态价值函数的数学表达和计算

状态价值函数可以通过**贝尔曼期望方程(Bellman Expectation Equation)**来表达,这是强化学习中一个核心公式。对于状态 s s s,其价值函数可以递归地表示为:
v π ( s ) = E π [ R t + 1 + γ v π ( S t + 1 ) ∣ S t = s ] v_π(s) = \mathbb{E}_π[R_{t+1} + \gamma v_π(S_{t+1}) | S_t = s] vπ(s)=Eπ[Rt+1+γvπ(St+1)St=s]
展开后为:
v π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r P ( s ′ , r ∣ s , a ) [ r + γ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值