1. 强化学习的基本概念和框架
强化学习是一种机器学习范式,其核心是智能体(Agent)通过与环境(Environment)的交互来学习如何采取行动以最大化长期累积奖励。强化学习可以形式化为一个马尔可夫决策过程(Markov Decision Process, MDP),其关键组成部分包括:
- 状态(State, S):描述环境当前的情况。例如,在一个迷宫游戏中,智能体的位置是一个状态。
- 动作(Action, A):智能体在某个状态下可以采取的行为。例如,迷宫中的“上、下、左、右”移动。
- 奖励(Reward, R):智能体执行动作后从环境获得的反馈信号。例如,走出迷宫得到+10奖励,撞墙得到-1奖励。
- 转移概率(Transition Probability, P):描述从当前状态 s s s 采取动作 a a a 后转移到下一个状态 s ′ s' s′ 的概率,即 P ( s ′ ∣ s , a ) P(s' | s, a) P(s′∣s,a)。
- 策略(Policy, π):智能体的决策规则,定义了在状态 s s s 下选择动作 a a a 的概率,即 π ( a ∣ s ) π(a | s) π(a∣s)。
- 折扣因子(Discount Factor, γ):用于权衡短期奖励和长期奖励, 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0≤γ≤1。当 γ γ γ 接近1时,智能体更重视未来奖励。
强化学习的目标是找到一个最优策略 π ∗ π^* π∗,使得智能体在遵循该策略时,能够最大化期望累积折扣奖励,即:
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + ⋯ = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^\infty \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1
其中 G t G_t Gt 是从时间步 t t t 开始的累积回报(Return)。
状态价值函数是用来评估某个状态“好坏”的工具,衡量的是在某个策略下,从该状态开始能获得的期望累积奖励。
2. 状态价值函数的定义和意义
状态价值函数(State Value Function)表示在给定策略 π π π 下,从某个状态 s s s 开始,智能体遵循策略 π π π 所能获得的期望累积折扣奖励。用数学表达为:
v π ( s ) = E π [ G t ∣ S t = s ] v_π(s) = \mathbb{E}_π[G_t | S_t = s] vπ(s)=Eπ[Gt∣St=s]
其中:
- v π ( s ) v_π(s) vπ(s) 是状态 s s s 的价值。
- E π [ ⋅ ] \mathbb{E}_π[\cdot] Eπ[⋅] 表示在策略 π π π 下的期望。
- G t G_t Gt 是累积回报,如上所述。
直观理解:
- 状态价值函数回答的问题是:“如果我从状态 s s s 开始,按照策略 π π π 行动,平均能拿到多少奖励?”
- 它衡量了状态的“长期价值”,考虑了所有可能的未来路径及其概率。
- 例如,在迷宫游戏中,靠近出口的状态 s s s 通常有较高的 v π ( s ) v_π(s) vπ(s),因为从那里更容易获得高奖励;远离出口或靠近墙的状态价值较低。
为什么需要状态价值函数?
- 它帮助智能体评估不同状态的优劣,从而指导决策。
- 它是强化学习中策略评估(Policy Evaluation)和策略改进(Policy Improvement)的基础。
3. 状态价值函数的数学表达和计算
状态价值函数可以通过**贝尔曼期望方程(Bellman Expectation Equation)**来表达,这是强化学习中一个核心公式。对于状态 s s s,其价值函数可以递归地表示为:
v π ( s ) = E π [ R t + 1 + γ v π ( S t + 1 ) ∣ S t = s ] v_π(s) = \mathbb{E}_π[R_{t+1} + \gamma v_π(S_{t+1}) | S_t = s] vπ(s)=Eπ[Rt+1+γvπ(St+1)∣St=s]
展开后为:
v π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r P ( s ′ , r ∣ s , a ) [ r + γ