目录
4. Self-supervised Learning,自监督学习
5. Deep RL in Gaming,游戏中的深度强化学习
5. Growing interest in RL,对RL日益增长的兴趣
本文编译自:
1. 前言
2021年见证了强化学习在机器人、游戏、序列决策等领域的许多创新,也见证了学生和职业研究者对于强化学习的持续上涨的兴趣和好奇心。
在机器学习领域当前最令人行人兴奋的领域当属强化学习。在许多不同的应用领域中都能够找到强化学习的应用,包括(但不限于):数据处理、机器人、制造、推荐系统、能源、游戏等等
强化学习区别于其它类型的算法的一个重要的地方在于它不依赖于历史数据集,它像人类一样从试错中学习。
在过去一些年中,关于强化学习的理解和改进的步划呈现出加速的倾向。想想那些高科技行业的大玩家,如脸书、谷歌、DeepMind、亚马逊、微软,他们都无一例外地投入巨量的时间、金钱和努力以期在强化学习领域取得创新突破。
2. Robotics Simplified,简化的机器人
机器人要想对人类有用,它们必须执行非常多各种各样的任务。但是,采用离线强化学习方法哪怕只针对一种任务进行训练也需要巨量的时间和计算开销。
为了解决这个问题,谷歌研发出了MT-Opt和Actionable Models。前者是一个多任务强化学习系统,用于自动化数据收集和多任务强化学习训练,后者是一个数据收集机制,用于基于真正的机器人收集各种任务的多回合的数据,并且展示了多任务强化学习的成功应用案例。它们都帮助机器人能够更快地进行关于新任务的学习。
作为强化学习领域的领头羊之一,DeepMind给出了一些独特的创新。DeepMind发布了RGB-stacking,用作基于视觉的机器人控制的测试基准(benchmark)。他们使用强化学习来训练一个机械臂完成以平衡的方式堆积各种不同形状的物体的任务。
这个项目的独特性在于在该任务中所使用的物体的多样性,所执行的经验性评估的数量。学习管道(pipeline)分为三个阶段:
(1) 基于使用现有的强化学习算法的仿真的训练
(2) 基于现实观测以训练得出一种新的策略
(3) 将这个策略应用到真正的机器人上,并从中收集数据,然后再基于收集的数据去改进策略
3. Sequential Learning,序贯学习
序贯决策过程的实现对于强化学习来说至关重要。社交媒体巨头Facebook(现已更名为Meta)在刚刚一个月前发布了SaLinA用于简化这一过程。SalinA用PyTorch的扩展进行构建,对于监督学习和非监督学习的场景同样适用,而且具有兼容多CPU和GPU的选项。这样一种方法将在需要大规模训练的系统中得到应用。
在2021年的强化学习领域也能看到IBM的活跃的身影。IBM发布了名为TextWorld Commonsense(TWC)的基于文本的游戏环境,用于解决给强化学习智能体(RL agent)灌输常识的问题。这一方法被用于训练和评估具备关于物体、它们的属性及自解释性(?affordance)的特定常识的强化学习智能体。它通过导入几种基线(baseline)强化学习智能体以解决序贯决策的问题。
4. Self-supervised Learning,自监督学习
在自监督学习领域,我们见证了新的方法论的诞生。谷歌发布了一种称为Reversibility-Aware RL的方法,这种方法往self-supervised RL procedure中加入了一个分离的可逆性评估组件。谷歌声称这种方法提高了强化学习智能体在包括Sokoban字谜游戏在内的几项任务中的表现。
5. Deep RL in Gaming,游戏中的深度强化学习
强化学习对于游戏有深刻的影响。在2021年中,我们看到DeepMind在强化学习的辅助下进行无干预的游戏智能体的训练。尽管在此前DeepMind所创造的AlphaZero等能够击败国际象棋、日本将棋和围棋的世界冠军,但是它们仍然是单独地针对不同的游戏进行训练,针对每一种新的游戏都只能重复从零开始的强化学习过程。
然而,利用这种新的方法,智能体具备对新的环境的灵活的适应性,能够对新的境况做出反应。这一研究的核心部分依赖于深度强化学习如何在智能体的神经网络的训练中发挥作用。
谷歌一直都在进行将强化学习应用于游戏领域的研究。在2021年早些时候,它发表了“Evolving Reinforcement Learning Algorithms”, 其中展示了如何利用图表示(graph representation)以及应用来自于AutoML社区的优化技巧训练可解释且可泛化的强化学习算法。
它采用Regularized Evolution的方法促进一个计算图(computational graphs)的种群在一系列简单训练环境之上进化。这有助于改善强化学习算法在诸如Atari等需要视觉观测的复杂环境中的表现。
5. Growing interest in RL,对RL日益增长的兴趣
强化学习空间发生的如此多的进展,势必会引起在学生和职业研究者社区对强化学习的兴趣增长。为了迎合这一日益增长的需求,微软组织了Reinforcement Learning (RL) Open Source Fest 向学生们介绍开源的强化学习以及软件开发项目。
来自于DeepMind的研究者与UCL(英国伦敦大学学院)合作向学生推出关于现代强化学习的综合性介绍的课程,旨在帮助学生获得对于诸如马尔可夫决策过程(MDP)、基于采样的学习(sample-based learning)算法、深度强化学习等主题的详细而具体的理解。
强化学习的发展还有很长的路要走,但是在过去一些年已经有了一些重大的进展。对于一些工业分支,强化学习的使用会起到游戏改变者(game-changer)的角色。随着越来越多的关于强化学习的研究,我们期待在近未来能够看到更多的重大突破。