1 强化学习(reinforcement learning,RL)
试错学习:以下几个关键部分:
- 尝试
- 错误
- 结果
- 学习
试错学习是强化学习的最鲜明要素,但并不是全部,强化学习还包括其他学习:如观察学习(模仿学习,离线强化学习等)
把好的结果称为奖励,坏的称为惩罚。一次次决策以获得最佳的奖励,这个过程就是序列决策。
对于任何问题,只要能够建模成序列决策问题,就可以使用强化学习来解决,这就是学习强化学习的原因。
2 强化学习的应用
- 游戏AI,如AlphaGo为代表的围棋AI。
- 机器人的学习,通过仿真来模拟真实环境,降低实验成本。
- 金融领域,如股票交易,期货交易,外汇交易等。
- 其他如自动驾驶,推荐系统,交通派单,广告投放,chatgpt等。
3 强化学习方向概述
1 多智能体强化学习(multi-agent reinforcement learning,MARL)
在多个智能体的环境下进行强化学习,通常存在非静态问题,即环境的状态不仅由智能体的动作决定,还受到其他智能体的动作影响。
其次存在信号问题,即智能体之间可以通信来合作或竞争。
2 从数据中学习
从数据中学习或者从演示中学习,包含许多门类,如从专家数据中学习策略,以逆强化学习为代表的从人类数据中学习等。
模仿学习是指可以通过模仿人类的行为来学习一个较好的策略。最经典之一的就是行为克隆,即把每一个状态-动作对视为一个训练样本,并通过监督学习方法来学习一个策略。
逆强化学习是指观察人类的行为来学习到一个奖励函数,然后通过强化学习来学习一个策略。
3 探索策略
即如何在探索和利用中做出权衡。
4 实时环境
实时环境指在实时或在线环境中进行决策,如自动驾驶,机器人等等。这种情况下训练会降低效率,解决办法是离线强化学习。
5 多任务强化学习
实际应用中,智能体经常需要同时解决多个任务,而不是单一的决策任务,所以如何在多个任务中做出权衡是一个难题。
目前常用方法有:联合训练和分层强化学习。