当机器具备跨模态感知能力后,会有智商吗?| MixLab人工智能

大家好,我叫大铮,这是我的第一个专栏。我们将从脑科学,语言学,符号逻辑,决策推理等多个角度深入探讨什么是跨模态感知,再从人工智能的角度,来认识跨模态感知的具体实现。

希望通过这个专栏能让大家知道:人类是多么高级的智能体,而机器在模仿人类智能这件事上走了多远,最终将会去往何处。


不同形式的模态

我们在生活中会接触到不同形式的信息,视觉上的图像、视频;听觉的语言;嗅觉对应的气味等,都可以称为模态。

随着信息技术和传感器技术的发展,模态的范畴也变得更为宽广:网络上的文本,深度相机收集到的点云等信息,都可以看作是不同形式的模态。跨模态感知涉及到两个或多个感官的信息交互,可以是通感(Synesthesia),也可以是转换感知。在实际应用中,转换感知更接地气:比如最基本的图像检索,就是一种从文本到图像的感官替换。反过来,从图像到语音的转换,可以帮助有视觉感官缺陷的人们,强化感知环境的能力。

通感艺术家 Geri Hahn 根据她对英语语法内在相关性观察

创作的AND,BUT 和 NOT 三个词汇的视觉化形象

微软的Seeing AI 可以帮助视障者

阅读文字,识别商品属性,感知好友的表情

为了让机器能自然流畅地和人交流,更好地让机器辅助人们用日常的生活语言完成多种多样的任务,研究者们在自然语言理解(Natural Language Understanding)方面做出了非常大的努力。

OpenAI,这家获得特斯拉创始人 Elon Musk、PayPal 联合创始人 Peter Thiel、LinkedIn 联合创始人 Reid Hoffman 投资的人工智能研究公司,最近开放了迄今为止最为强大的文本生成人工智能,GPT-3

GPT-3 

一种自动语言生成模型,它使用深度学习来生成类似于人类语言的文本。它是由位于旧金山的人工智能研究实验室 OpenAI 创建的 GPT-n 系列中的第三代语言预测模型。GPT-3 的完整版本包括了 1,750 亿个机器学习参数

开发者可以通过 调用API(Application Programming Interface,应用程序接口),利用这个强大的模型玩出各种花样,比如:

1 用文本的描述,生成网页的前段代码;

2 根据输入的开支文本描述,修改资产负债表上的数据条目;

3 在Excel里写下需要查询的内容,通过网络搜索自动填充查询结果;……

开发者 Sharif Shameem 利用GPT-3开发了一个简单的 to-do app

只需要输入“我需要一个文本框和一个按钮来保存输入的内容,生成我需要的todos” 就行了

GPT-3 的实验结果,似乎验证了 Richard Sutton 在之前颇具争议的论断,他在《苦涩的教训》的最后写道:“我们应该从苦涩的教训中学到一点:通用方法非常强大,这类方法会随着算力的增加而继续扩展,搜索和学习似乎正是这样的方法。”

在GPT-3推出后,一些在更广泛任务上的实验也指出(他们让GPT-3完成了近一万六千道题目,内容涉及美国本科的课程、考试、牛津大学出版社出版物、研究生考试、美国医学许可考试等等),GPT-3 还不能真正地理解知识,其表现出来的能力更像是在死记硬背,缺乏对内容的系统性的理解能力。

图灵奖得主杰弗里·埃弗里斯特·辛顿( Geoffrey Everest Hinton)在一次采访中提到,只有 1750 亿个参数的人工智能 GPT-3 与有 100 万亿个神经元的人脑相比,其参数数量依然是微不足道的。他认为就像人脑一样,真正对于语义的理解,需要依托存在大量的向量神经活动中

Geoffrey Everest Hinton

在另一篇,来自华盛顿大学的 Emily M. Bender 和萨尔大学的 Alexander Koller发表并获得ACL最佳论文主题奖的论文中,他们也探讨了关于自然语言理解的问题。

文章中讲,目前的语言模型,仅使用语言形式(form)来训练的方式永远也无法真正 “理解” 语言。这里的形式是指语言的任何实现(observable realization),比如标记序列(token),或者写在纸上的 (written language),或者以声音形式存在的口头语言(spoken language) 等等。而所谓的语义(meaning)理解则是指语言的形式( form) 和某种语言之外的东西的联系

这个观点与辛顿的理解不谋而合:“如果一个智能体能打开抽屉,然后取出一个积木,然后说:‘我刚刚打开抽屉然后取出一个积木’,那么可以认为它是明白自己是在做什么的。”

UCberkeley的机器人正在学习做咖啡

在深度学习框架的具体实现中,两个模态间的语义转换,需要将具有抽象概念的符号逻辑,与具有良好的视觉/文本形象表征能力的深度神经网络相结合。符号逻辑虽然不是最自然的事物的展现形式(最自然的应当是自然语言),但其优势是符号间的逻辑运算在数学上有一套完备的规则,而且这些规则能很清楚地用代码写出来

符号

泛指的是我们的语言中经常被使用的抽象概念(比如交通信号灯的“红色”代表停止,“绿色” 代表通行;数学上的 “加法” 是一种线性运算方式的实例;“携带” 指两个物体间空间位置关系的一种状态),这些概念可以不区分具体的环境或者特定的任务而广泛成立,所以有时候我们也叫之为 “常识”

由于符号在不同的环境中是通用的,少数几个符号就能表示大量的视觉/文本形象,避免了特征向量在语义上是含糊不清的这一特性,这将有助于解决目前深度学习模型存在的一些问题:数据利用效率低,模型泛化能力差。而又由于符号的含义通常是明确且相互独立的,这就能让深度学习模型能够进行可解释的决策推理。

要想把符号和深度学习结合起来,需要先提取符号,再建模符号:

1 符号的提取是:

把现实世界的实体抽象化成符号,简单的做法是把深度神经网络的输出稀疏化从而转换成抽象的符号,也可以利用先验性的约束(例如贝叶斯模型)指导模型自行学习符号。

2 有了抽象的符号之后要做的是:

把符号和符号关联起来。根据辛顿对于大型向量的解释,符号应该是向量中的一组基本元素,这组元素可以代表符号的含义,同时不同的符号之间又是相互独立的。

目前的使用深度学习模型来建模符号关系的方式主要有图神经网络,基于自注意力机制的Transformer (例如GPT-3)两种。这些结构结合了符号推理的框架,就能够实现符号层面的推理,所得到的推理关系能够很容易地迁移到其它的任务上去,并产生同样的效果,这就如同辛顿说的:

‍‍‍‍

图神经网络的信息传递和更新过程‍

“如果一个智能体能打开抽屉然后取出一个积木,然后说:‘我刚刚打开抽屉然后取出一个积木’,那么可以认为它是明白自己是在做什么的。” (编辑:chunfang)

大铮

复旦大学计算机应用技术在读博士

研究:机器学习、深度学习、媒体大数据分析

“我想去未来看看”

在下一期专栏里,我会带大家来认识人脑的认知过程,以及计算机科学家是如何 “仿脑” 的。


2020-2021 Mixlab 年度线下聚会 

报名 正式开始

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值