Value-Based Reinforcement Learning(基于值的强化学习)详解
Value-Based Reinforcement Learning (VBRL) 是强化学习中最经典和广泛应用的方法之一。它的核心思想是通过学习值函数(Value Function),帮助智能体评估各个状态或状态-动作对的价值,从而找到最优策略。与基于策略的方法(Policy-Based RL)不同,Value-Based RL 不直接学习策略,而是通过优化值函数间接推导出策略。
1. 什么是 Value-Based RL?
在 Value-Based RL 中,核心是学习一个值函数 ( V(s) ) 或 ( Q(s, a) ),并通过这些值函数来评估智能体在环境中的行为。值函数描述了某一状态或动作的“好坏”,通常是基于累积奖励的预期值。
-
值函数的类型:
-
状态值函数(State Value Function, ( V(s) )):
[
V^\pi(s) = \mathbb{E}\pi \left[ \sum{t=0}^\infty \gamma^t R_t \mid S_t = s \right]
]
表示从状态 ( s ) 开始,遵循策略 ( \pi ) 所能获得的累积奖励期望值。 -
状态-动作值函数(State-Action Value Function, ( Q(s, a) )):
[
Q^\pi(s, a) = \mathbb{E}\pi \left[ \sum{t=0}^\infty \gamma^t R_t \mid S_t = s, A_t = a \right]
]
表示从状态 ( s ) 开始,执行动作 ( a ) 后遵循策略 ( \pi ) 所能获得的累积奖励期望值。
-
-
目标:
学习最优值函数 ( V^(s) ) 或 ( Q^(s, a) ),并从中导出最优策略 ( \pi^(a|s) ),即:
[
\pi^(s) = \arg\max_a Q^*(s, a)
]
2. 核心概念:贝尔曼方程
贝尔曼方程是 Value-Based RL 的理论基础,它递归地定义了值函数:
-
状态值函数的贝尔曼方程:
[