百度通用 AI 大突破，智能体通过交互式学习实现举一反三

本文链接：https://blog.csdn.net/heyc861221/article/details/80128836

本文转自新智元，特此感谢！
来源： arxiv 论文下载地址：https://128.84.21.199/pdf/1703.09831.pdf
欢迎人工智能领域技术投稿、约稿、给文章纠错，请发送邮件至heyc@csdn.net

百度IDL研究员徐伟、余昊男、张海超提出了一个新的框架，通过多任务强化学习和零数据学习，让智能体在没有先验知识的情况下，自己学会了结合语言和视觉两种信号在迷宫中导航并定位物体。这项研究是百度在通用AI研究中交互式学习上的突破，有助于研发在现实世界中完成任务的机器人。

百度这次开发的AI需要完成的任务是在二维迷宫里找东西，但与以往大多数研究让AI自己去探索新环境不同，百度研究人员使用了一个“教练”算法，使用语言命令AI去到不同的地方做事情。

在这里，AI要完成任务，除了自己处理视觉信号导航，还需要学会理解语言信号并将这些语言信号与视觉信息对应起来。这种结合了图像分析、自然语言处理以及现实世界行动的能力，正是人类使用语言命令机器人去完成任务所不可或缺的。由此，这项研究对于机器人应用有很大的潜力。

论文作者、百度深度学习研究院杰出科学家徐伟在接受外媒采访时表示，他们希望教会机器人用人的方式做事情，这样对人类用户而言更加方便，而“语言则是知识交流很重要的部分”。

百度的这个AI具体怎么工作呢？在一个7×7的迷宫中，AI需要找到水果，找到了以后有奖励，碰壁或者走错方向则会受处罚。论文里的AI算法由四个部分组成：一个语言模块，用于理解命令和生成答案；一个识别模块，用于明确关键词（比如苹果）；一个视觉模型，用于“看”迷宫；还有一个决策模型，用于决策。

上文提到的那个“教练”算法会发出指令（英语），比如“往苹果的东边移动”，经历数百万次的迭代以后，AI就能学会什么是“东”、什么是“苹果”，以及这两个概念如何关联。

不仅如此，研究人员还发现，实验中AI通过强化学习，在接收到以前没有接触过的语言命令后，也能正确执行任务。

虽然目前论文里AI能够完成的任务还十分简单，算法也不能生成完整的句子响应，但徐伟表示，这项研究是一项“概念证明”（proof of concept），用于探索算法能否同时学会语言和在迷宫中导航。

研究人员在论文中表示，他们接下来计划将实验拓展到三维环境。

值得一提，系统是使用百度PaddlePaddle框架写的。

这个实验与徐伟的研究目标十分呼应。3月2日，深度学习技术及应用国家工程实验室学术研讨会在京召开（李彦宏称百度要做女排那样的人工智能国家队），徐伟在现场表示：“现在我们的机器和人还是有着非常大的差距，我们应该从一个非常简单的学习场景开始，让机器像儿童一样，通过在环境中的互动去学习感知、行动、语言这样一些基本的能力。”

当天，徐伟发表了关于通用AI的演讲，谈论了如何打造通用人工智能的研究平台。徐伟在演讲中说：“我在这里和大家分享的是我们对于以后人工智能发展的希望和我们现在做的一些工作。我特别要强调的是，我们现在考虑的是通用人工智能的技术发展。”

下面，我们具体来看看这项研究。

虚拟环境中类似人类语言习得的深度组合性框架（A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment）

图片描述