什么是强化学习?
- 面向智能体的学习–通过与一个环境进行交互来实现目标
- 通过试错和优化进行学习–用试错后的奖励(或惩罚)进行学习
强化学习 vs 其他机器学习
机器学习
监督学习:有即时标签的学习(如分类,回归等)
监督学习要求带标签的数据,这些数据是比较昂贵的
标注数据也是一门学问非监督学习:无标签学习(聚类问题等)
无标签数据的数量非常庞大且容易获得
强化学习:有延迟奖励的学习问题,介于监督与非监督之间
即时的奖励:如果分错了,只告诉你错了
延迟的奖励:等全部分类完毕之后,告诉总分数如何
监督学习本质上可以认为是强化学习的一种特殊形式(无延迟场景)
强化学习更贴近人类的学习过程
强化学习可能是通往通用人工智能的道路,目前人工智能都是弱人工智能
强化学习的应用案例
强化学习整体结构
强化学习整体结构由环境,智能体及之间的交互组成,每个时刻t:
智能体执行动作 At A t ,并在环境中得到观测值 Ot O t 和奖励值 Rt R t
环境会对智能体的动作 At A t 做出反应,然后送出新的观测值 Ot+1 O t + 1 和奖励值 Rt+1 R t + 1
- 智能体是指强化学习需要优化的部分,是我们能够精确控制的部分
- 环境是我们不能直接控制的部分
- 区分智能体和环境是强化学习的第一步,不同的问题,智能体和环境的划分也有所不同
强化学习的组成
强化学习主要包括三个要点:奖励,状态和动作。
奖励
奖励是强化学习的核心,可以没有观测,但是不能没有奖励。奖励是强化学习区别其他机器学习的标志特征。奖励的特点包括:
- 奖励 Rt R t 是一个标量反馈
- 奖励衡量了智能体在时间t上做得有多好
- 智能体的目标就是最大化累计奖励
- 强化学习的目标就是最大化期望累计奖励
举例:
无人机和无人车控制
+奖励:如果按预定轨迹运行
-奖励:碰撞或翻车下围棋
+奖励:赢了
-奖励:输了
注:奖励并不要求一定要有正有负,只有正的奖励和负的奖励就可以,因为看的是相对值
长期奖励
每一个动作都有可能是一个长期的结果,奖励可能有延迟,有时我们需要牺牲一些短期奖励来获取更多长期的奖励,比如下围棋,只有在最后才能获得奖励
奖励值与回报值
回报值
当智能体在时间t做出动作 At A t 时,会在未来收到奖励序列{
Rt R t ,