1.什么是强化学习
强化学习是一种广义上的计算方法,它使机器得以通过与环境的持续互动来达成特定目标。此过程涉及机器(或称为智能体)基于当前环境状态做出行动选择,该行动对环境施加影响后,环境不仅会呈现相应变化,还会反馈给智能体一个奖励信号及新的状态信息,标志着一次交互的完成。这一系列交互在时间上连续重复,旨在促使智能体优化其行为策略,以期在整个交互序列中累积获得最大化的期望奖励。与有监督学习中被动响应的“模型”相比,强化学习框架下的“智能体”更强调主动参与和改变环境的能力,超越了单纯预测的范畴。
智能体与环境的交互模式,如图1-1所示,揭示了一种循环机制:智能体首先感知当前环境状态,据此做出行动决策并执行于环境之中;环境接收此行动后,回馈即时奖励并转换至新状态,为下一交互周期奠定基础。此过程中,智能体的功能可归纳为三大核心组件——感知、决策及奖励反馈。
感知功能使智能体能够获取环境的当前状况,如同下围棋时识别棋局布局,自动驾驶车辆监测周遭交通动态,或机器狗通过视觉及触觉传感器解析周边环境信息等。
决策是智能体基于感知到的状态,通过内部算法运算,确定下一步行动策略的核心环节。这涵盖了从围棋落子位置的选择,到自动驾驶车辆驾驶操作的决策,乃至机器狗行走步态的调整等复杂判断过程。策略的有效性直接体现了智能体的智能水平,并构成了智能体间差异性的关键。
奖励机制通过环境对智能体行为的反馈,以一个数值信号形式评估其行动质量。无论是棋局的胜负、行车的安全高效,还是维持平衡前行的能力,都是通过奖励信号量化评价的。累积最优化期望奖励成为智能体策略演进的导向