强化学习入门:从基础概念到实践应用
1. 优化奖励学习
在强化学习中,被称为智能体(agent)的程序会对环境进行观察,并在环境中执行操作,从而获得奖励。其目标是学习一种行为策略,以在较长时期内最大化预期奖励。如果可以进行一些拟人化的解读,正奖励可以被视为愉悦,负奖励则可看作痛苦(在这种情况下,“奖励”这个词有点容易让人误解)。简单来说,智能体在环境中行动,并通过试错法学习如何最大化愉悦和最小化痛苦。
这个定义涵盖范围很广,适用于多种不同类型的任务,以下是一些例子:
- 机器人控制 :智能体可以是控制机器人行走的程序。此时,环境就是现实世界,智能体通过一系列传感器(如摄像头或触觉传感器)观察环境,而操作则是向机器人的运动部件发送信号。我们可以对机器人进行编程,使其到达目标为正奖励,浪费时间或走错方向则获得负奖励。
- 游戏控制 :智能体可以是控制《吃豆人女士》(Ms. Pac - Man)游戏的程序。在这种情况下,环境是Atari计算机上的游戏模拟,操作由操纵杆的九个倾斜方向(左上、下、中等等)定义,观察结果以屏幕截图的形式呈现,奖励则是游戏中的得分。
- 棋盘游戏 :智能体可以是玩棋盘游戏(如围棋)的程序。
- 智能温控 :智能体不一定控制物理(或虚拟)移动的物体,例如在智能恒温器中,正奖励是在消耗最少能量的情况下保持目标温度,而当人类必须手动调节温度时,智能体获得负奖励,这意味着智能体必须学会预测人类的需求。
- 股票交易 :智能体可以观察股票价格,并在每一秒