《Extending Machine Language Models toward Human-Level Language Understanding》
https://cloud.tencent.com/developer/article/1556632
这篇论文是由DeepMind、斯坦福大学、谷歌等的研究团队发表的,首先介绍了最近在NLP方面的突破,然后提出:机器要达到人类水平的语言理解能力,需要互补的记忆系统和丰富的情境表征。
提出的问题: 如何构建并且实现一个统一的理解系统?(互补)
• DL 逐渐的学习
• 快速的学习新知识,通过对之前的某个特定场景的一次记忆
和当下的输入学习
解决:
• 多输入源,结合图像语言,触觉力觉等等
• (大脑内侧颞叶)新记忆的初步形成至关重要,包括对特定事件
及其构成对象和情境的记忆
• 结合一个类似MTL的快速学习系统将有助于解决这一问题
摘要
首先我们回顾了一下近期的自然语言中的一些breakthroughs。最近的一些方法都是依赖于人工神经网络捕获的有关于表示和学习的领域通用原理。(简单来说就是用的表示学习),然而这些方法,都只关注于语言本身。人类语言处理系统呢,它会利用一个互补的学习系统,包括像我们现在常用的这种深度神经网络,它能够通过大规模的语料去逐渐的学习,同时还需要一个快速学习系统,他能够支撑快速学习一些新的信息。这样的一个系统,是未来的一个重要研究方向。
不仅仅要关注原本身,还要去获取表达和交流现实世界中的一些对-象和情景
快速?联系马和驴之间的关系。感觉有点像之前讲的知识蒸馏,在少数据的情景下也可以达到一个好的目标(因为我能够去联系到之前可能出现过一次这样子特定的记忆或者特定的场景)
1、Principles of Neural Computation
神经计算的原则是由人类大脑所启发。他们第一次,提出是在20世纪50年代,然后在20世纪80年代得到一个快速的发展。
神经计算,它是通过权重连接,分布式的表达来去反映一个逐渐的,统计上面的一个学习过程。它往往关注的是分布式表,它不像语言学更关注的是符号以及规则。它是一种隐式的,连续的;并不是离散的,显式的,结构化的。
另外一个原则是交互式条件满足。这里举了一个例子来说明一个句子的结构和含义是相互依赖的,比如说。 A boy hit a man with a __ . 如果缺失的词是bat,那么就说明后面的这一部分修饰的是打这个动词。如果后面是胡子,那么就说明后面的这一部分修饰的是男人这个词,所以不同的这种含义,它的句子的结构是不一样的。
2、Neural Language Modeling
2.1 An Early Neural Language Model.
首先介绍了一下RNN。接着说了两个重要的发现(Elman提出),一个是说在训练这个神经网络语言模型的时候,网络的表达能够捕获到名词跟动词之间的语法上的差异。然后能够捕获到词的一个贡献信息,比如说cat和dog它会聚集在一块。第2个的话举了一个例子,比如说boy who sees girls chases dogs,这个其实修饰的就是boy这个名词,而不是girls这个名词。即chases也需要对句子的语法结构敏感,而不是仅仅依赖于词共现。
2.2 Scaling Up to Process Natural Text
这一部分介绍长距离依赖和预训练的词向量。举了下面这个例子。替换和增加词都不会改变预测为gone的结果。
John put some beer in a cooler and went out with his friends
to play volleyball. Soon after he left, someone took the
beer out of the cooler. John and his friends
were thirsty after the game, and went back to his
place for some beers. When John opened the cooler,
he discovered that the beer was ___.
后面就出现了ELMo和BERT等语言模型,文章随后提到说,用名词指代这个任务作为一个挑战,是比较符合人类对语言的这样的一个理解。然后也举了一个名词指代例子。
The trophy did not fit in the suitcase because it was too ___.
if the missing word is big the referent must be the trophy, but if it is small the referent must be the suitcase.
最后说明有一些变种的测试集仍然能够欺骗模型,也就是说BERT还是有缺陷的,但是它这里没有举例子,我觉得举一个例子可能会更好一些。
3、The Human Integrated Understanding System (IUS)
3.1 Situations and objects.
尽管神经语言建模取得了成功,但存在一大限制,即这些模型完全基于语言。我们需要这样一个模型,在这个模型中,语言是一个综合理解系统(integrated understanding system,IUS)的一部分,用于理解和交流我们遇到的情境(situations)以及参与其中的对象(objects)。
情境表征构成了我们的世界模型,并指导着我们的行为和对语言的理解。事实上,解决一个句子中代词的指称问题可以从构建该句子所描述的情境的表示开始。
情景的话是比较重要的,情景可以是具体的,可以是静态的,也可以是科幻或者是法律,在这篇文章里面主要是聚焦于具体的一些情景。(情境可以是具体的和静态的,例如猫在垫子上;也可以是事件,例如男孩在打球。它们可以是概念上的、社会上的或法律上的,例如法院宣布某项法律无效,甚至可以是虚构的。)
人类也会构造情景表示:
1,当我们能将文本中的陈述与熟悉的情境联系起来时,我们就能更好地理解和记忆文本
2,传达情境的信息可以通过文字附带的图片提供;
3,我们记住的对象的特征取决于它们在文本中所处的情境;
4,我们记忆中的对象没有在文本中明确提及;
5,在听到描述对象之间的空间关系或概念关系的句子后,我们记住的是这些关系,而不是语言输入。
此外,eye movements 的证据表明,人们在语境中处理语言时,会同时且立即使用语言输入和非语言输入。例如,在听到“The man will drink …”这句话后,参与者看到的是满的葡萄酒杯,而不是空的啤酒杯。而听到“The man drank…”,他们的看到的是空的啤酒杯。
因此,语言理解包括使用视觉输入和语言输入,实时地构建语言输入所描述的情境的表示,包括所涉及的对象及其相互之间的空间关系。
3.2 The understanding system in the brain
图4描述了我们提出的综合理解系统。我们所提出的既是关于大脑理解基础的理论,也是未来语言理解研究的架构。
首先,我们关注系统的一部分,被称为新皮层系统(neocortical system),它的作用是将语言和非语言输入结合起来,例如,在听到一个包含“bat”这个词的句子时,它能理解所指的对象和情境,同时观察世界上相应的情境。
这个系统由图中的蓝色椭圆(对应于大脑中的神经元池)和蓝色箭头(这些池之间的连接)组成。蓝色框包含了新皮层系统,每个椭圆形成一个特定信息的嵌入(表示)。蓝色箭头表示已学习的连接,允许嵌入相互约束。红色框包含内侧颞叶系统,被认为提供了一个存储新皮层系统状态完整嵌入的网络。红色箭头表示快速学习连接,这些连接将嵌入的元素绑定在一起,以便以后重新激活和使用。连接红色和蓝色椭圆的绿色箭头支持两个系统之间的双向影响。
对象表达。靠近颞叶神经元前部分的大脑区域如果被破坏的话,会损害识别对象以及正确捕获对象的能力。那些人工神经网络,将这个区域当做是一个交互的隐层。对这个神经网络当中的一些隐单元进行去除来模拟神经元被破坏,发现模型的表达能力也下降。
情景表达。情景表示出现在一组相互连接的大脑区域中,这些区域主要位于额叶和顶叶。
Situation-specific constraints.
boy ran to the dog and the boy ran from the dog
人类对这两句话的理解是不一样的。尽管像类似于BERT这样的模型,可能会捕获到显式的限制Constrain,但是一个完整的场景表达可能是更加有效的。
总而言之,人类的大脑包含了特殊的区域,这些区域能够表达每一个输入特征和对象以及场景,通过结合语言和其他输入的交互过程进行计算。使机器能够模仿一个,这样子的结构,将有利于实现未来一个更好的人类语言理解。
3.3 Complementary Learning Systems
学习在理解中起着至关重要的作用。我们所描述的神经网络中连接权值的知识是通过基于每次经验的非常小的调整积累而获得的。连接权重逐渐变得对微妙的高阶统计关系敏感,随着学习的继续,越来越多地考虑上下文,并表现出对一般信息和重复的特定信息(如亲密朋友和名人的名字)的敏感性。
在我们提出的架构中,这个渐进的过程发生在图4中蓝色箭头所代表的所有路径中,就像它发生在上述人工神经语言模型中一样。然而,这种学习机制不适合快速获取新信息,而试图通过有针对性地重复快速学习特定的新信息,会导致对已知信息的灾难性干扰。
但是,人类通常可以依靠过去任意时间仅呈现一次的信息来告知我们当前的理解。例如,考虑这段话:
John put some beer in a cooler and went out with his friends to play
volleyball. Soon after he left, someone took the beer out of the cooler. John
and his friends were thirsty after the game, and went back to his place for
some beers. When John opened the cooler, he discovered that the beer was
___.
要推测出John再次打开冷藏箱时找不到啤酒,我们必须依靠第一次听说啤酒被偷走了时所获得的信息。
这种情况非常普遍,学习系统必须能够利用这些信息,但是BERT等语言模型在这种方式下是有限的。虽然有些模型将长单词序列保持在活动状态,但当一个文本被替换为另一个文本时,只保留上面描述的较小的连接调整,使这些系统无法访问先前信息的细节。
人类的大脑包含了一个可以解决这个限制的系统。考虑一个场景,比如说某个人看见了一个先前不太熟悉的物体,然后听到了一个关于他的描述,正如图4所示,这个视觉的输入会提供一种信息源,同时这个口语语言的输入提供了他的名字,在仅仅经历了两次这样的短暂配对之后,人类就表现出了很强的学习能力。这种学习方式依赖于海马体和大脑内侧颞叶(MTL)的邻近区域。虽然MTL在学习和记忆中的作用学界仍在讨论,但形成的一个共识是,MTL对于新记忆的初步形成至关重要,包括对特定事件及其构成对象和情境的记忆, 而一般知识、理解语言的能力以及先前获得的技能不受MTL损害的影响。
关于MTL损伤的研究证据表明,在MTL中存在一个快速学习系统(fast learning system)。根据互补学习系统理论(CLST),该系统(图4中的红色部分)提供了对理解系统状态的完整表示,并在MTL(红色箭头)中使用可快速修改的连接,以支持基于单一经验的新学习。绿色箭头表示新皮层系统(蓝色)和MTL系统(红色)之间携带信息的连接,因此系统可以相互影响。
总结而言,人类的大脑包含了互补的学习系统,当我们试图理解一个经历过的情况时,这些系统支持同时使用许多信息来源。其中一个系统是通过交错学习的方式逐渐形成一个完整的知识体系,包括我们对单词含义、经常遇到的物体的属性、熟悉情况的特征的认识。另一个是对该系统的补充,以允许将来自特定经验的信息用于对当前情况的解释。
4、Toward an Artificial Integrated Understanding System
我们回顾了当前的深度学习研究,这些研究采取的步骤与我们所提议的IUS相一致,并指出了实现一个真正完整且功能齐全的语言理解系统所需要的未来方向。
我们从建立在具体的视觉和物理环境中的语言环境开始,然后考虑记忆的作用,最后将注意力转向对更抽象的对象、情境和关系的理解上。
4.1 Mapping vision and language to representations of objects.
一个模型如何学习世界上可能发生的情况?
长期以来,人们一直在讨论构建一个建立在外部世界基础上的人工语言理解系统的必要性。早期的一个例子是Winograd的SHRDLU系统,它产生并响应了关于模拟物理世界的语言。
深度学习使感知输入和语言的端到端的联合训练成为可能。这些模型的最新进展极大地改善了性能,导致应用程序改变了用户体验。例如,当展示给系统一张照片,系统就可以回答一些问题,比如这个人手上拿着什么?女士的衬衫是什么颜色的?这些模型展示了将视觉和语言信息相结合以理解一类情况的能力。
4.2 Embodied models for language understanding
如图4所示,除了视觉和语言的综合之外,我们还可以看到许多附加信息源的更充分的综合。每个源都为不同的学习目标提供了基础,并使一个源中突出的信息能够引导另一个源中的学习和推断。其他重要的信息来源包括非语言的声音、触觉和力觉,以及关于个人行为的信息。
尽管有这些令人鼓舞的迹象,但要实现完全的人类水平的泛化仍然是一个重要的挑战。我们建议,结合一个类似MTL的快速学习系统将有助于解决这一问题,即允许新单词链接到相应的对象上,而在其他情况下,仅从单个事件支持使用该单词来指代被指称者。
4.3 An artificial fast learning system.
在综合理解系统的实现中,快速学习系统应该是什么样的呢?可微神经计算机(DNC)中的存储系统是一种可能性。这些系统将过去事件的嵌入存储在插槽(slots)中,这些插槽可以存储综合的系统状态表示,就像我们人类的MTL一样。或者,它们可以存储整个状态的集合,包括视觉、语言、对象和场景表示。
虽然我们不相信大脑对每段记忆都有一个单独的槽位,但模拟它是很有用的,在这方面,具有无限容量的人工系统可能会超过人类的能力。
在这样一个系统中,相关信息的检索是如何工作的呢?DNC采用一个类似BERT的查询系统,检索可以基于上下文和项目信息的组合,类似于人类记忆。
研究出这样一个系统的细节是未来一个令人兴奋的研究方向。
4、Conclusion
语言并不是孤立存在的。大脑中的综合理解系统将语言与物体和情境的表征联系起来,并通过充分利用我们对世界的多感官体验、我们对运动动作的表征以及我们对先前情景的记忆来增强语言理解。
我们认为下一代的语言理解系统应该模仿大脑中的这个系统,并且我们已经勾勒出了这个系统可能采取的一些形式。
当强调对具体情况的理解时,我们认为对更抽象的语言的理解是建立在这一具体基础之上的,并指出未来我们有可能建立一个人工系统来理解远远超出具体、此时此刻这一范围的抽象情况。
总而言之,我们提出,对大脑中的综合理解系统进行建模,将使人工智能更接近于达到人类水平的语言理解和智能。