强化学习、GAN与多巴胺对撞：阿里AI 智能体认知研讨会干货

最新推荐文章于 2022-05-27 08:44:40 发布

weixin_34356310

最新推荐文章于 2022-05-27 08:44:40 发布

阅读量374

点赞数

文章标签：人工智能大数据网络

本文链接：https://blog.csdn.net/weixin_34356310/article/details/86718786

版权

2017年4月，阿里巴巴首次向外公布在人工智能“认知”层面上的研究成果：阿里巴巴认知计算实验室与伦敦大学学院计算机系合作，以游戏“星际争霸1”中的微观战斗场景为测试环境，深入地研究了多个 AI 智能体之间的协作难题，旨在通过协作智能解决人类不擅长的问题。

该研究引入的多智能体双向协作网络（BiCNet）可以自动学习游戏中的各种最佳策略，以使多个智能体协同作战，从无碰撞移动到基本的攻击和逃跑策略，再到复杂的掩护攻击和集中火力攻击。

据介绍，该研究在对战游戏中与其他方法相比，取得了目前为止最高的胜率，受到牛津大学、韩国科学技术院、清华大学、上海交大等多个相关顶级研究机构的关注。让多智能体通过协作完成复杂任务，显示出人工智能在现实世界，包括电商、游戏、健康医疗等智能决策领域的广泛应用前景。

该项目主要负责任人之一、阿里巴巴认知计算实验室资深总监袁泉在接受新智元专访时表示，当下，人工智能的每一个进步，几乎都受到了神经科学的启发，尤其是新一轮通用智能发展的中坚力量——基于神经网络的深度强化学习。

近年来，不管是神经科学还是计算机科学，科家们一直都在寻求跨界融合，希望由此将各自的研究往前推进。2017年4月5日，北京，阿里巴巴绿地中心，新智元与阿里巴巴联合举办“AI 智能体”学术研讨会暨新智元百人会2017年4月闭门峰会，来自计算机科学和神经科学的学者们展开了一场激烈的思维碰撞。

现场进行分享的嘉宾，一方是计算机科学界的资深研究者：阿里巴巴认知计算实验室资深总监袁泉、英国伦敦大学学院教授汪军。另一方，则是国内顶尖的神经科学家：北京师范大学认知神经科学与学习国家重点实验室的吴思教授、清华类脑研究中心及麦戈文脑科学研究院研究员、博士生导师宋森。双方从不同的角度带来了一场关于计算机科学和神经科学的“智能盛宴”。

会议由新智元创始人杨静主持。她说：“清明节期间BAT三大巨头在深圳的IT领袖峰会上对人工智能未来的走向和趋势做了一些探讨，马云爆出金句“So TM What”，我同意他讲的前景，机器智能可能在探索人所不能做的事，不一定人的智能就是极限了。我们今天的研讨也是希望通过星际争霸的旅程，迈出新的一步。”

中国计算机学会秘书长史忠植、军事医学科学院研究员范明、中科院自动化所研究员余山、中科院自动化所研究员张兆翔、中科院计算所研究员韩银和、中科院计算机网络信息中心百人计划研究员赵地等多名专家，以及新智元百人会会员、阿里巴巴内部员工参与了讨论。

计算机科学学者：人工智能的商业机制及跨学科创新趋势

作为本次研讨会的东道主，同时也是计算机科学一方的代表，阿里巴巴认知计算实验室资深总监袁泉率先进行分享。

强化学习、GAN与多巴胺对撞：阿里AI 智能体认知研讨会干货

图为袁泉在讲解技术原理

袁泉此前的研究集中在个性化推荐算法和电商中的精准营销。他说，团队之所以会选择去研究让智能体玩星际，是因为这里面蕴含了当下人工智能在认知层面还没有很好解决的问题：比如，在不确定性下如何做推理与规划、多智能体协作完成复杂任务、短中长期收益平衡等。相比于AI下围棋这样的确定性问题，星际争霸的搜索空间要高10个数量级。

此外，袁泉介绍到：“从现实意义上来说，这项研究也是对阿里电商业务问题的抽象、具有广泛的应用场景。近几年由于无线端小屏化、用户时间零散化，为了粘住用户大多数产品背后都基于算法进行推荐，每个用户打开的手机淘宝、天猫都是千人千面的结果。但目前各产品中的算法Bot以独立推荐为主，如何使得多个Bots相互协作，为用户和卖家带来更多价值，在日常和双11中都是一个重要问题，同时在金融、量化等领域也存在类似情况。而星际争霸为研究这一问题提供了理想的模拟实验环境。”

那么，类脑研究这一领域对于通用人工智能的研发为什么这么重要？袁泉介绍说，因为人脑是地球上已知的唯一实现通用智能的物体，人工智能的研究发展过程也无时无刻不受到人脑学习机制的启发，如经典强化学习中的actor－critic算法与人脑中的多巴胺产生和作用于运动神经的机制非常类似；近期的神经图灵机、DNC等工作背后也受到大脑中记忆机制的启发。因此，研究认知智能是个多学科的交叉工作，我们从星际智能体的研究中深刻的感受到这一点，因此很必要参与此类的跨学科研讨会。

提到未来的方向，袁泉说，模仿学习（Imitation Learning）是一个很重要的突破方向。“从过去做推荐、广告都是基于大数据的机器学习，而人类婴幼儿的学习过程并不需要太多的数据，而是依赖小样本和举一反三的能力；就像原来在机器人领域一样，人拿着机器臂教它演示几次怎么倒水，它自己就学会了倒水。在星际中我们也进行了相应的研究，对加速智能体的学习速度、学会新的战术都有明显作用”。

强化学习、GAN与多巴胺对撞：阿里AI 智能体认知研讨会干货

图为汪军在现场演讲

论坛第二位分享的嘉宾汪军教授来自英国伦敦大学学院（University College London ），这是一所孵育出了 DeepMind 的世界级名校，诞生过29位诺贝尔奖获得者。汪军对新智元介绍说，该校计算机系英国排名第一，与DeepMind有着非常密切的联系。DeepMind 创始人Demis Hassabis 以及 AlphaGo的第一作者David Silver都来自该校。

汪军教授还是本次阿里巴巴与伦敦大学学院合作的通用人工智能研究成果——多智能体双向协作网络 BiCNet 的主要设计者之一。

汪军教授最早做信息检索等偏应用的人工智能，后来做推荐系统，计算广告学、个性化、大数据数据挖掘、数据科学方向。在本次分享中，汪军教授主要介绍了通用人工智能中研究的两个大方向：一个是大家熟知的AlphaGo 背后的经典算法深度强化学习，另一个是在此前提到的与阿里的合作中重点方向——多智能体协作，也可以理解为集体智能。

他提出了人工集体智能（artificial collective intelligence ）的概念，认为是人工智能的下一个大方向。

GAN （生成对抗网络）是通用人工智能研究中的重要技术。汪军教授在分享中详细介绍了这一技术，他说，GAN 也是基于多智能体对抗的原理。

今年ICLR超过 20% 的Paper都在讲各种各样的GAN。汪军教授介绍说，使用GAN生成图像这项技术，他们最近刚发的paper可以做到 8.34 的 score，是目前最高的，但生成的图像还没有达到非常高的清晰度。

2017年AAAI上，汪军教授所在团队发表文章，提出了序列化的生成模型——SeqGAN。主流的 GAN 只会生成图象，无法生成序列化的文本，主要的原因是因为离散的数据很难在神经网络中实现求导更新参数。SeqGAN（序列对抗生成网络）可以生成文字、特别是机器人对话问答，以及新闻报道、音乐、机器医生问诊等，为机器人写作提供了一个新的方法。

汪军教授提到，人工智能最大的挑战在于，怎么样让多智能体在一起在完成同一个任务的时候进行合作和竞争。竞争的话，又如何用数学的东西表达它，进而在这个基础上解决一些以前没有解决的问题。同时前沿的研究对用计算的方式探索人类的“意识”也是个新的方向，如弗洛伊德提出的自我、本我、超我等方式，如何一步步用人工智能的可计算方式进行逼近和研究，会非常有价值。

神经科学学者：脑科学的进展远超大多数人想象

在神经科学的学者中，清华大学医学院生物医学工程系及清华类脑研究院麦戈文脑科学研究院的宋森首先分享。

强化学习、GAN与多巴胺对撞：阿里AI 智能体认知研讨会干货

图为宋森在进行分享

他在演讲中首先提到，类脑计算要从两方面学习大脑，一方面计算能力，另外一方面怎么造才能省电。计算神经科学专家通常关心如何用数学模型解释脑科学的数据，人工智能专家关心如何向大脑学习，设计先进算法。类脑计算的专家还要考虑电力消耗问题。人的大脑能源消耗量很少，只有10瓦左右，而AlphaGo是在大型计算机上跑出来的，耗电高了6-9个数量级。

他说：“神经计算科学的历史进展受神经科学手段的影响是很大的。五六十年代单个神经的计算比较热门，到现在轴突搞得基本清楚。但是，树突这块，也就是接收这块，以前认为就是简单接收信号求和，现在发现里面有复杂的计算，如今这一方面的研究较为热门。第二个方向，神经编码，从计算的角度来看，编码和动力学是两半。从60年代到2000年持续有很多进展，我们大概了解了频率编码的特性，最近几年的热点是时间编码，还有一些新的特殊的编码形式。”

宋森介绍，几年来脑科学研究取得最大幅度进展的地方，是局部回路的结构和结构相关的动力学特征的研究。这方面取得进步主要的原因是最近有了很多解析回路的工具，可以回答类似“大脑每个脑区有多少种类型的神经元？它们如何连接？每种神经元的功能是什么？”能真正把这个电路图画出来，就是一个很大的进步。进而可以思考，能不能根据电路图挖掘出大脑如何做计算的？这就需要计算神经科学建模。

最后一个方向：学习和记忆，显然是所有人都非常感兴趣的，而且可能是很难的方向，随着上面几方面每次的技术进展这个领域都跟随着有一些新的进展。宋森介绍了自己在这上面的三个方面的工作：

1.从类脑计算机系统设计来看，大脑一个很大的特征是跨度很大，从很小的突触层次一直到整个大脑协同完成很复杂的功能，造一个在各个层次上像大脑的类脑计算机，也需要在各个层次进行研究。类脑计算机最近很热门的原因之一是摩尔定律快到头了，各大芯片公司开始思考往下怎么发展。共识是从微缩驱动转向功能驱动。类脑计算是最有希望的路径之一。神经科学或许可以带来新的启发。

2.大脑回路很重要的功能是存储计算一体化，这和冯诺依曼的架构不一样。其中最重要的计算单元如何设计，如何拼起来，在这方面他做了一些比较早期的工作，发表在2005年plos biology上。这个文章主要问的问题是大脑中基本的连接结构单元是什么? 这个问题的答案目前在微观尺度上面还不是特别清晰。他们曾从四个神经元的连接数据中进行挖掘，最后发现是高度互连的神经元连接模式比随机更多。同时发现有一些连接很强，而不是所有的连接都差不多强。后人发现，这里面存在这些最小的单元--神经元簇（Cluster），而在稍微大一点几百个神经元上尺度上有一些像Hub和 community一样的东西，这到底有什么计算意义？他们今年申请了一个自然科学基金课题，会对此进行研究。

3.随着AlphaGo的胜利，最近深度强化学习非常热门。那么大脑是如何进行强化学习的呢？大脑有个特点就是他进行的是阶层强化学习。这也可以对应到一个叫基底核的结构的解剖结构上。他的实验室在系统地解开相关回路。最近有一个有趣的发现是有一类神经元，似乎和心情不好的时候想寻找享受，如好吃的食物有关系。也许弗洛伊德说的各种下意识动机都可以用神经科学的方法解开。

北京师范大学认知神经科学与国家重点实验室吴思教授也带来他对通用人工智能与类脑研究的思考分享。

强化学习、GAN与多巴胺对撞：阿里AI 智能体认知研讨会干货

图为吴思在现场分享

吴思教授的背景是计算神经科学，早年做过人工神经网络和机器学习。他说，计算神经科学研究有两个目标，一是用数学方法和模型阐明脑的工作原理，二是为类脑智能提供新的思想和理论基础。

他认为智能不好定义，但类脑智能却好界定：即学习大脑的计算法则、框架、及硬件实现。

在分享中，吴思教授主要围绕动态信息处理来谈对通用人工智能和未来人工智能的看法。他认为，如果只是喂给神经网络东西，进行深度学习，这还不算智能。动态信息处理，包括空间和时间信息的加工，才涉及到智能的问题；如果只是条件反射，我们甚至都不需要大脑。而处理动态信息的关键就是预测。预测是图像理解，整合时间信息、补偿信号传输延迟、辅助主动视觉等信息加工的不可或缺的关键要素。

吴思教授说，目前为止神经系统已经发现了很多方法来做预测，这些预测算法对类脑智能处理运动信息有较大启示作用。

讨论：关于人工智能与类脑研究的 4 个关键问题

在新智元创始人杨静的主持下，研讨会进入畅所欲言的讨论环节。众位嘉宾分享的观点总结如下：

1. 人工智能为什么要类脑？

我们唯一能看到的一个通用人工智能的样本就是脑子，这是一个简单的逻辑。

2. 人工智能要如何从类脑研究中进行借鉴？

一个是原理驱动，脑科学研究中重要的原理运用到人工智能方面会有比较大的推动。比较典型的例子是深度学习，它借鉴了非常基本的原理，比如分层化处理等等。深度学习从一个层面证实了即便是部分原理应用都可以有很大的进展。其他大脑的基本原理，比如时间序列处理等，现在很多人工智能的算法里面并没有用上。

第二个，问题驱动。反过来从人工智能出发，看人工智能面临的问题是什么，哪些核心功能现在的方法不能解决，来看生物脑怎么解决这样的问题。神经科学研究了将近一个世纪，有很多的知识已经积累起来了，什么样的结构，什么样的动态规则，什么样的学习规则是脑子里面采取解决这些问题的，可以借鉴。不见得一开始就去做一个类脑计算机或者一个整体式的一揽子解决方案。

3. 类脑芯片进展如何？

这里面有两个最关键的挑战，第一个挑战就是本身大脑的结构都不是特别清楚，在这种情况下想利用电子器件去做类似的结构出来是比较困难的。从结构上来讲，结构差那么一点可能功能谬以千里；第二个挑战，基本器件方面，电子器件和生物器件差别很大，它们俩模型不一样，电子器件计算很厉害，但是边计算边存储以前不行，现在忆阻器发现能让计算存储一体化，但是脑细胞肯定不止计算存储一体化，可能有其它功能没发现。

4. 我们对大脑的了解有多少？

此前曾有人说，我们对大脑的认识只有3%。在本次研讨会上，嘉宾们对这一说辞进行了分析，认为我们很难用一个量化的方式来表示这一进度。因为，“我们连100%是怎么样的一种状态都不清楚”。

论文下载：https://arxiv.org/abs/1703.10069

开源地址：https://github.com/deepcraft/gym-starcraft

weixin_34356310

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习、GAN与多巴胺对撞：阿里AI 智能体认知研讨会干货

2017年4月，阿里巴巴首次向外公布在人工智能“认知”层面上的研究成果：阿里巴巴认知计算实验室与伦敦大学学院计算机系合作，以游戏“星际争霸1”中的微观战斗场景为测试环境，深入地研究了多个 AI 智能体之间的协作难题，旨在通过协作智能解决人类不擅长的问题。该研究引入的多智能体双向协作网络（BiCNet）可以自动学习游戏中的各种最佳策略，以使多个智能体协同作战，从无碰撞移动到基本的攻击和逃跑策略，再到...
复制链接

扫一扫