深度丨人大宋睿华：自然语言理解的重大突破为何是多模态？

智源社区

于 2021-06-09 18:17:00 发布

阅读量1.5k

点赞数 2

文章标签：人工智能编程语言机器学习大数据深度学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/117758066

版权

智源导读：人是如何在一瞬间将语言理解成意义的？AI可以拥有这样制造意义的心智吗？

在6月3日智源大会的视觉大模型论坛上，中国人民大学高瓴人工智能学院长聘副教授、悟道·文澜团队成员宋睿华作了题为《我们赖以生存的意义和超大规模多模态预训练》的报告。

宋睿华，本科、硕士就读于清华大学计算机科学与技术系，博士就读于上海交通大学计算机系。2003年加入微软亚洲研究院，从事信息检索与挖掘，推荐和文本生成的研究。2017年5月，湛庐文化出版了人类史上第一本人工智能诗集《阳光失了玻璃窗》，其中所有的诗歌正是由她主导研发的算法生成。她随后加入微软小冰，任首席科学家直至2020年7月。2020年9月，宋博士加入中国人民大学高瓴人工智能学院，任长聘副教授。宋睿华博士是具有国际影响力的科学家，在国际会议和期刊上已发表了学术论文90余篇，拥有25余个国际专利。近期的研究兴趣包括自然语言的跨模态理解、多模态对话和人工智能创作。

本文为演讲内容摘录（有适当删节）

整理：沈磊贤

校对：李梦佳

何以为人

当我们看到一句话“今天我是骑自行车来的”，我们会怎么去理解它？会把它拆分成时间、主语、谓语和介词去分析它吗？

可能一瞬间你根本都没有想这些，我们更容易想到的是一个橘色或者蓝色的共享单车。人类把文字理解成意义的那一瞬间到底发生了什么，这正是报告所关注的问题。

再举一个「北极熊的鼻子」的故事的例子，当我们看到“北极熊爱吃海豹肉，而且爱吃新鲜的”这个句子，一刹那脑袋里会浮现出来《动物世界》里的一只北极熊，也会有海豹隐隐约约的影子。同时看到“它爱吃新鲜的”，甚至有一点要流口水的感觉。当我们看到文字描写北极熊是怎么捉海豹的，讲到了它「一跃而起，伸出爪子，露出獠牙」，我们可能也有一种想动，想张嘴的冲动，其实这是因为我们在理解文字的时候，有可能也调动了自己运动的部分。

图1 北极熊的鼻子文案

故事说到，「北极熊几乎可以完美地将自己隐身于周遭的冰天雪地」，我们可能会想这里面有一点推理和常识，原文中从来也没有提到过颜色相关的词，然而我们可以理解这句话，因为我们自己会补上这样的常识，我们头脑中的北极熊一定是白色的毛覆盖着的一只熊，头脑中的冰天雪地一定是雪白的，所以故事中说北极熊能够隐藏在冰天雪地中，我们一点都不觉得突兀，觉得它是符合常识的，所以我们看到这些文字的一瞬间，已经调动了非常多的细节。

最低0.47元/天解锁文章