参考A Technical Overview of AI & ML (NLP, Computer Vision, Reinforcement Learning) in 2018 & Trends for 2019
强化学习领域的三个主要问题:
采样复杂性(agent为了学习需要查看/收集的经验量)
泛化与转移学习(任务A培训,相关任务B测试)
分层RL(自动子目标分解)
前两个问题可以用一套类似的技巧来解决,所有这些技巧都与无监督表示学习有关。目前在RL中,我们正在训练深度神经网络,该网络使用稀疏的奖励信号(如Atari游戏的分数或机器人抓取的成功)以端到端的方式从原始输入空间(如像素)映射到动作(如反向传播)。
这里的问题是:由于信噪比非常低,实际有用的特征检测器的“增长”需要很长的时间。RL基本上是从随机行动开始的,直到幸运地发现一个奖励,然后需要弄清楚具体的奖励是如何产生的。进一步的探索要么是硬编码的( ϵ \epsilon ϵ-greedy的探索),要么是用好奇心驱动的探索等技术来鼓励的。这不是很有效,会导致问题1。
其次,众所周知,这些深度神经网络体系结构很容易过拟合,在RL中,我们通常倾向于在训练数据上进行测试——在这种范式中,实际上鼓励过拟合。
我非常感兴趣的一个可能的前进道路是利用无监督的表示学习(autoencoders,vae’s,gans,…)将杂乱的高维输入空间(如像素)转换为低维的“概念”空间,该空间具有某些可取的特性,例如:线性度、分离度、对噪声的鲁棒性……
一旦你能将像素映射到这样一个有用的潜在空间中,学习就会变得更容易/更快(问题1),你也希望在这个空间中学习的策略会因为上面提到的属性而具有更强的泛化性(问题2)。
我不是分层问题的专家,但是上面提到的每一个问题都适用于这里:在潜在空间中解决复杂的层次任务比在原始输入空间中更容易。
由于增加了越来越多的辅助学习任务,增加了稀疏的、外在的奖励信号(如好奇心驱动的探索、自动编码器式的预训练、消除环境中的因果因素等),采样复杂性将继续提高。这在非常稀疏的奖励环境中尤其有效。
直接在物理世界中进行训练将变得越来越可行(而不是目前主要在模拟环境中训练,然后使用域随机化转移到现实世界的应用程序)。我预测2019年将带来第一个真正令人印象深刻的机器人demo,使用深度学习方法,没有硬编码/人工工程(不像我们迄今为止看到的大多数demo)
随着Deep RL在AlphaGo中取得重大成功(尤其是最近的Alphafold结果),我相信RL将逐渐开始提供实际的业务应用程序,这些应用程序将在学术空间之外创造真实的价值。
正如已经开始发生的那样,在RL开发中会有一个普遍的转变,即不再认为对训练数据进行测试是“允许的”。泛化指标将成为核心,就像监督学习方法一样。