一、 强化学习基础知识
强化学习 (Reinforcement Learning, RL) 是一种机器学习方法,它通过智能体 (Agent) 与环境 (Environment) 的交互来学习如何行动以最大化累积奖励 (Reward)。
1. 核心概念:
- 智能体 (Agent): 做出决策并采取行动的学习者。
- 环境 (Environment): 智能体所处的外部世界,对智能体的行动做出反应。
- 状态 (State, S): 对环境当前情况的描述。
- 动作 (Action, A): 智能体在特定状态下可以采取的行为。
- 奖励 (Reward, R): 环境对智能体动作的反馈,可以是正面的 (奖励) 或负面的 (惩罚)。
- 策略 (Policy, π): 从状态到动作的映射,定义了智能体在每个状态下选择动作的规则。
- 价值函数 (Value Function): 评估一个状态或状态-动作对的好坏,通常表示为预期累积奖励。
- Q 值函数 (Q-Function): 评估在特定状态下采取特定动作的价值。
- 目标: 找到一个最优策略 (Optimal Policy)ÿ