来源:NIPS 2013
作者:DeepMind
理解基础:
- 增强学习基本知识
- 深度学习 特别是卷积神经网络的基本知识
创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略
具体是将卷积神经网络和Q Learning结合在一起。卷积神经网络的输入是原始图像数据(作为状态)输出则为每个动作对应的价值Value Function来估计未来的反馈Reward
实验成果:使用同一个网络学习玩Atari 2600 游戏,在测试的7个游戏中6个超过了以往的方法并且好几个超过人类的水平。
在这篇文章中,还只是测试7个游戏,到了Nature的文章则测试了更多的游戏,并且取得了更好的效果
优点:
- 算法具备通用性,一样的网络可以学习不同的游戏(当然,游戏具有相似性)
- 采用End-to-End的训练方式,无需人工提取Feature(比如游戏中敌人的位置等等)
- 通过不断的测试训练,可以实时生成无尽的样本用于有监督训练(Supervised Learning)
缺点:
- 由于输入的状态是短时的,所以只适用于处理只需短时记忆的问题,无法处理需要长时间经验的问题。(比如玩超级玛丽)
- 使用CNN来训练不一定能够收敛,需要对网络的参数进行精良的设置才行。
改进办法:
- 使用LSTM 来增强记忆性?
- 改进Q-Learning的算法提高网络收敛能力。
详细分析
1 前言介绍 Introduction
提出问题:
直接从高维的输入(比如视觉或听觉)来学习一个控制策略 是 RL增强学习的长期挑战。个人理解:这个问题是人工智能抽象出来的极其重要的子问题,因为人类都是通过视觉听觉触觉等感觉然后来学习一项技能,比如玩游戏,打篮球,洗碗等等。 解决这个问题的意义在于机器人不一定可以具有自我意识,但是却可以实现 机器人彻底代替重复性劳动 的愿景。
以往的解决办法:
- 人工提取特征(比如物体的位置)
- 使用线性的value function或者policy策略来表征
性能的好坏主要取决于特征提取的好坏
Deep Learning 带来的机会
当前,深度学习已经在视觉,语音等领域取得突破性进展,根本的方法就是通过神经网络自动提取复杂特征。所以,很自然的我们会考虑一个问题:
增强学习能否收益于深度学习
答案当然是YES
从RL看结合Deep Learning的困难之处
- 深度学习的成功依赖于大量的有标签的样本,从而进行有监督学习。而增强学习只有一个reward返回值,并且这个值还常常带有噪声,延迟,并且是稀少的(sparse),理解是不可能每个state给个reward。特别是延迟Delay,常常是几千毫秒之后再返回。
- 深度学习的样本都是独立的,而RL中的state状态却是相关的,前后的状态是有影响的,这显而易见。
- 深度学习的目标分布是固定的。一个图片是车就是车,不会变。但增强学习,分布却是一直变化的,比如超级玛丽,前面的场景和后面的场景不一样,可能前面的训练好了,后面又不行了,或者后面的训练好了前面又用不了了。
从上面分析出增强学习要结合深度学习存在的三个问题:
- 没有标签怎么办?
- 样本相关性太高怎么办?
- 目标分布不固定怎么办