上海人工智能实验室刘宇:从感知AI的发展理解决策AI的未来

刘宇,博士,上海人工智能实验室青年科学家,OpenDILab开源决策智能平台项目负责人,博士毕业于香港中文大学MMLab,研究方向为大规模深度学习优化问题和决策AI,发表人工智能领域顶会顶刊30余篇,总引用量达到2000+。曾为2019年GooglePhDFellowship得主,并且在人工智能世界级重量竞赛ImageNet2016、OpenImage2019、MMIT2019、LFR2019、ActivityNet2020等获得冠军。

报告内容:感知与决策是通用人工智能的两大基石。感知类AI诸如计算机视觉、语音识别、自然语言处理等领域在过去10年享受了深度学习所带来的性能红利,而决策AI随着诸如强化学习与深度学习的结合在近年也表现出了很大的想象空间。本次分享回顾计算机视觉在深度学习时代的发展,从ImageNet等单一学术问题的革命性突破到真正实现大量复杂场景可用可落地的发展过程,围绕环境标准化、算法平台化、模型通用化等几大议题,分析和畅想决策类AI在未来大规模落地和发展可能性。

 

刘宇作《从感知AI的发展理解决策AI的未来》报告分享

下方有文字版总结分享哦

感知AI与决策AI的发展

刘宇首先为大家介绍了感知AI、深度强化学习在计算流上的异同,二者在计算流上的相同点是:都是Learning Based,GAN与RL梯度“信噪比”低;本质上不同点是:每次产生计算error的label的获取方式方式不同,RL bootstrapping收敛困难。

在对计算流进行了对比之后,刘宇介绍了泛感知类AI在深度学习时代的发展。在2012年由于AlexNet的广泛应用,计算机视觉发展有了质的飞跃;在2014-2016阶段,由于FaceNet、DeepID等细分领域算法的突破,计算机视觉在几个拥有海量数据的领域得以达到超越人类水平的高度;在2017-2020阶段,计算机视觉有了更进一步的发展,产生了如AutoML、NAS、HPO这样的一些半自动AI模型的训练和生产的流程;最近一两年,基于通用预训练模型的算法突破让一个计算机视觉模型可以解决大多数相似而长尾分布的任务。从整个发展周期来看,人工智能在视觉领域的发展经历了从单一封闭集的性能突破逐渐走向了面向长尾开集的通用模型生产流程。

决策AI发展的难点

接着刘宇指出,决策AI的发展仍处于早期阶段。从2012年DQN和Experience Replay的诞生,决策AI领域迎来了一小波快速的发展周期,但是这一阶段决策AI仅可以在仿真环境下完成简单任务;在2015-2017期间,这一时期决策AI的代表成果有AlphaGo、AlphaMaster、AlphaZero,这一阶段决策AI能够在仿真环境下做中等难度的任务;在2019-2020期间,这一时期决策AI的代表成果有AlphaStar、OpenAI-FIVE,这一阶段决策AI能够在仿真环境下做比较复杂的特定任务;而2021年及以后的发展,决策AI目前的热门方向有面向真实世界的Robotics、自动驾驶等,未来在数字孪生、全真仿真、环境迁移、Offline-RL、Model-Based RL等工具的帮助下,决策AI将会诞生更多亮眼的成果,未来决策AI仍将会为能够在真实世界中完成复杂开集任务而努力着。只是,决策AI算法能力不断提升但尚未打破从模拟器到真实世界,从少量样本学习通用技能的泛化临界点,所以会给人一种感觉,“隔壁CV已经在10亿终端进行人脸识别了,我家PPO还在打电动。”

使大家明晰了决策AI的发展进程后,刘宇点明,决策AI在学术界发展中面临的主要问题是标准化难,这体现在三个方面。一是环境多样性,因为实际应用的时候,即使是相同算法,任务之间的状态空间模态、动作空间种类,包括参数都是非常割裂的,不同环境下的不同算法和优化难度的差别非常大;二是计算的复杂性,决策AI领域目前无法让学术界和工业界有比较好的分工,因为像PPO、SAC、DQN等等,把它们抽象到同一个平台上,做成像感知一样变成有Head、Backbone的训练框架抽象非常难的,因此很难像CV、NLP领域具有高度集成化的训练框架;三是计算尺度,强化学习计算流程比纯Deep Learning感知要复杂非常多,且异步性远高于感知类AI的训练流程。从单机一颗CPU的训练到上千GPU和上万CPU的训练最优训练系统体系差别非常大。

刘宇总结决策AI发展中面对的三个难点后,也介绍了上海人工智能实验室目前做的OpenDILab的项目核心是为了推动这三个难点向前发展。刘宇强调,OpenDILab希望推动环境多样性、计算复杂性,以及计算尺度多样性标准化问题的解决

扫码即可了解更多开源信息~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值