元强化学习三境界
统计学是人工智能开始发展的一个基础,古老的人们从大量的数据中发现七所存在的规律,在以统计学为基础的 机器学习(machine learning)时代,复杂一点的分类问题效果就不好了, 深度学习(Deep Learning)的出现基本上解决了一对一映射的问题,比如说图像分类,一个输入对一个输出,因此出现了AlexNet这样的里程碑式的成果。但如果输出对下一个输入还有影响呢?也就是序列决策(sequential decision making) 的问题,单一的深度学习就解决不了了。强化学习(Reinforcement Learning)的出现让该问题得到了新的发展,深度强化学习(Deep Learning + Reinforcement Learning = Deep Reinforcement Learning)通过使用神经网络对强化学习的学习数据利用神经网络进行逼近得到了快速的发展,让序列决策初步取得成效,最典型的例子就是Google DeepMind公司的AlphaGo。
但是,新的问题又出来了,深度强化学习 过度依赖于巨量的训练,并且需要精确的Reward,对于现实世界的很多问题,比如机器人学习,没有好的reward,也没办法无限量训练,怎么办?这就需要能够快速学习。
相比之下,人类能够更快、更有效地学习新的概念和技能。只看过几次猫和鸟的孩子可以很快分辨出来。知道如何骑自行车的人可能很快就会发现骑摩托车的方式。那么是否有可能设计出具有类似属性的机器学习模型 ,答案是“有的”,这也是本文即将讨论的 元学习(Meta