智源导读:人是如何在一瞬间将语言理解成意义的?AI可以拥有这样制造意义的心智吗?
在6月3日智源大会的视觉大模型论坛上,中国人民大学高瓴人工智能学院长聘副教授、悟道·文澜团队成员宋睿华作了题为《我们赖以生存的意义和超大规模多模态预训练》的报告。
宋睿华,本科、硕士就读于清华大学计算机科学与技术系,博士就读于上海交通大学计算机系。2003年加入微软亚洲研究院,从事信息检索与挖掘,推荐和文本生成的研究。2017年5月,湛庐文化出版了人类史上第一本人工智能诗集《阳光失了玻璃窗》,其中所有的诗歌正是由她主导研发的算法生成。她随后加入微软小冰,任首席科学家直至2020年7月。2020年9月,宋博士加入中国人民大学高瓴人工智能学院,任长聘副教授。宋睿华博士是具有国际影响力的科学家,在国际会议和期刊上已发表了学术论文90余篇,拥有25余个国际专利。近期的研究兴趣包括自然语言的跨模态理解、多模态对话和人工智能创作。
本文为演讲内容摘录(有适当删节)
整理:沈磊贤
校对:李梦佳
01
何以为人
当我们看到一句话“今天我是骑自行车来的”,我们会怎么去理解它?会把它拆分成时间、主语、谓语和介词去分析它吗?
可能一瞬间你根本都没有想这些,我们更容易想到的是一个橘色或者蓝色的共享单车。人类把文字理解成意义的那一瞬间到底发生了什么,这正是报告所关注的问题。
再举一个「北极熊的鼻子」的故事的例子,当我们看到“北极熊爱吃海豹肉,而且爱吃新鲜的”这个句子,一刹那脑袋里会浮现出来《动物世界》里的一只北极熊,也会有海豹隐隐约约的影子。同时看到“它爱吃新鲜的”,甚至有一点要流口水的感觉。当我们看到文字描写北极熊是怎么捉海豹的,讲到了它「一跃而起,伸出爪子,露出獠牙」,我们可能也有一种想动,想张嘴的冲动,其实这是因为我们在理解文字的时候,有可能也调动了自己运动的部分。
图1 北极熊的鼻子文案
故事说到,「北极熊几乎可以完美地将自己隐身于周遭的冰天雪地」,我们可能会想这里面有一点推理和常识,原文中从来也没有提到过颜色相关的词,然而我们可以理解这句话,因为我们自己会补上这样的常识,我们头脑中的北极熊一定是白色的毛覆盖着的一只熊,头脑中的冰天雪地一定是雪白的,所以故事中说北极熊能够隐藏在冰天雪地中,我们一点都不觉得突兀,觉得它是符合常识的,所以我们看到这些文字的一瞬间,已经调动了非常多的细节。