Annual Review of Neuroscience:大脑、思维与机器中的语言

长期以来,人们认为只有人类能够产生和理解语言。但现在,人工语言模型(LMs)首次实现了这一壮举。在这里,我们调查了人工语言模型对大脑中语言实现方式问题所提供的新视角。我们讨论了为什么从先验上讲,人工语言模型可能会与人类语言系统具有相似之处接着,我们总结了证据,表明人工语言模型在语言处理过程中,在大脑编码和解码的过程中,以足够接近人类的方式表现语言信息。最后,我们考察了哪些人工语言模型的特性——它们的架构、任务表现或训练——对于捕捉人类语言的神经反应至关重要,并回顾了使用人工语言模型作为计算机模型有机体来测试关于语言的假设的研究。这些持续的研究让我们更接近理解支撑我们理解句子和用语言表达思维的表征和过程。本文发表在Annual Review of Neuroscience杂志。

     思影曾做过语言学相关的文章解读,请结合阅读,提升理解:

Nature子刊:语言、心智和脑

Nature主刊:语言主要是一种交流工具,而非思维工具

基于800多个个体的精确fMRI数据构建的语言网络概率图谱

语言加工的神经计算模型

关键词  语言,人工语言模型,自然语言处理,神经影像学,认知神经科学

1.  人类语言系统

1.1.  语言作为思维和大脑的独特组成部分

     现在,世界各地的人类正在将自己大脑中的思维转化为一系列声音,这些声音从他们的口中传入另一位人类的耳朵,产生类似于自己头脑中最初的思维。这就是语言的日常奇迹,是人类文化不断积累的引擎,也是我们物种的标志性才能。那么,语言是什么?它是如何在思维和大脑中计算的?像句子意义这样抽象的东西如何在神经元的活动中被编码?语言和思维之间的关系是什么?这些问题,长期以来一直是哲学家思考的主题,如今正迅速转向认知科学、神经科学和人工智能(AI)领域的严格实证研究,取得了越来越多的协同发现。

1.1.1.  语言系统的选择性

     我们所指的“语言”并非语言的表面形式(如言语、文本或手势),而是所有这些方式共有的更抽象的表征——这些表征使思维与单词序列之间能够映射。在最早尝试识别大脑中参与语言处理的区域时,19世纪的神经学家描述了因损伤到额叶和颞叶而导致说话和理解语言的缺陷的患者。然而,这些案例中许多反映的是语言感知或产生的缺陷,而非语言本身(Luria 1970,Goodglass 1993;关于这一点的近期讨论,参见E. Fedorenko,S. Piantadosi与E. Gibson,未发表手稿),并且自那时以来,是否有任何大脑区域专门参与语言的辩论一直持续不断。

      事实上,当非侵入性神经影像学方法首次问世时,许多研究人员注意到,在正电子发射断层扫描和功能性磁共振成像(fMRI)研究中,当人们理解句子时,颞叶和额叶中的大脑区域变得活跃,这些区域与参与其他非语言任务的大脑区域相似(Dehaene等,1999;Levitin & Menon,2003;Novick等,2005;有关综述,参见Fedorenko & Varley,2016;Fedorenko & Blank,2020)。这些发现被认为意味着,参与语言处理的大脑区域并非专门用于语言,而是支持多种认知功能。然而,这一推理存在一个关键缺陷:由于功能区域的确切解剖位置因个体而异,在大脑空间内将数据跨个体汇聚的分析方法必然会模糊功能反应,从而低估功能的特异性(Saxe等,2006)。当新的方法发展出来,可以通过对比句子与非词串或退化语音的反应任务,在每个参与者中个别地功能性地识别语言区域(Fedorenko等,2010)时,显而易见这些区域是高度特定于语言的,并且在进行心算、听音乐、保持工作记忆或执行认知控制任务时几乎没有反应(例如,Fedorenko等,2011;Monti等,2012;Amalric等,2018;Chen等,2023)。其他研究测试了与语言更接近的心理功能,包括非语言语义学(Ivanova等,2021),逻辑推理(Monti等,2009),理解计算机代码(Ivanova等,2020;Liu等,2020),处理非语言交际信号(Deen等,2015;Jouravlev等,2019),以及推理他人的思维(Shain等,2023),并发现这些功能即便是与语言相关,也并未强烈激活语言大脑区域。

     关于语言与非语言认知之间解离的互补证据来自于患有全球性失语症的患者,这些患者由于左半球的大面积中风而导致无法进行语言的产生或理解(Luria,1970;Goodglass,1993)。这些患者几乎完全丧失了语言的产生或理解能力,但仍能解答逻辑和算术问题,欣赏音乐,保持工作记忆,并思考他人在想什么(Varley等,2005;Apperly等,2009)。因此,语言和思维在大脑中不仅是可分离的,而且许多思维过程可以在几乎没有语言的情况下进行。综上所述,这些发现表明,语言区域在非语言任务中的作用较小,即使是那些与语言有相似之处的任务。

1.1.2. 语言系统的解剖学和内部结构

     从解剖学上讲,大脑的语言系统横跨许多平方厘米的皮层,涵盖了额叶和颞叶外侧表面的皮层区域(图1)。在大多数个体中,该系统是左半球化的,右半球的同源区域的激活较弱(图1a、b),且该拓扑结构在个体内部随时间稳定(图1c),在不同语言类型的语言中也相似(图1d)。

图片

图1 语言处理的神经解剖学

    (a)基于叠加来自n = 806名参与者的激活图谱的语言网络的概率性图谱,这些参与者执行了语言定位任务(Lipkin等,2022)。该图谱显示在大脑的外侧视图(左侧和右侧);黄色区域表征跨个体的重叠较多。语言网络主要包括左侧额叶和左侧颞叶的区域,这一拓扑结构在个体之间大致相似。

      (b) 来自n = 6名英语母语者的样本语言激活图。在语言区域的位置、形状和大小的变异性显示了为什么在跨个体汇总激活并假设体素级别的对应关系时,很难推断语言系统(Fedorenko等,2010)。色标反映语言对照条件对比(语言与控制条件对比)的t值统计量(该色标在图c和d中也使用)。

     (c) 来自n = 2名英语母语者的左半球语言激活图,每名参与者进行三次测试,跨度约为15年(Mahowald & Fedorenko,2016)。

     (d) 来自n = 6名母语为希伯来语、罗马尼亚语、他加禄语、爱尔兰语、泰卢固语和古吉拉特语的参与者的样本语言激活图,涵盖了四个语言家族:闪米特语系、印欧语系/意大利语支、南岛语系和达罗毗荼语系。尽管语言激活的精确拓扑结构存在差异,但不同语言使用者之间的变异性并不超过相同语言使用者之间的变异性(Malik-Moraleda等,2022)。

     (e,左) 语言区域的示意图。红色掩模对应于大多数个体在语言处理期间显示反应的区域(Fedorenko等,2010,Lipkin等,2022)。示意图显示了语言区域在自然认知范式中神经活动波动的平均相关性(使用BOLD信号在fMRI中测量)(数据来自Malik-Moraleda等,2022;n = 82名说不同语言的参与者,在其母语下进行测试)。在故事理解任务中的平均网络内相关性为r = 0.65;区域间的配对相关性显示在网络示意图中(圆圈表示区域;例如,PostTemp区域与IFG语言功能区域的平均相关性为r = 0.73)。(右) 使用语言定位范式(Fedorenko等,2010)识别的语言网络的拓扑结构(黄色和橙色)可以通过分析在单个参与者的自然状态(无任务)数据中体素共同波动模式来恢复(这种方式恢复的语言网络显示为黑色轮廓),如n = 3个样本个体所示。

     (f) BOLD反应大小对句子、单词列表、非词列表和非语言条件的语言区域反应。结构化刺激(例如句子),它传达组合意义,会比仅表达单一词汇意义的非结构化刺激(如单词列表)引起更强烈的反应;单词列表的反应强度则比无意义的非词(例如,Fedorenko等,2010;Pallier等,2011;Shain等,2024)强。多样的非语言输入和任务几乎不会引起语言区域的反应,尽管它们会强烈激活其他大脑区域(例如,参见Monti等,2009,2012;Fedorenko等,2011;Ivanova等,2020;Chen等,2023)。

大脑语言系统中的分工

     在构成语言系统的大脑区域之间,存在哪些分工?根据一个经典的提议,特定的区域支持语言理解与语言产生(例如,Geschwind 1970),这一观点基于语言缺陷患者中明显的解离。然而,这些解离可能涉及到较低级的语音感知和语音发音能力,这些能力与更高级的理解和产生能力是不同的(例如,见Saussure 1959;有关最新讨论,见E. Fedorenko, A.A. Ivanova与T.I. Regev,未发表手稿)。实际上,分离高级语言成分与低级语音成分的fMRI研究发现,句子理解和句子产生之间的反应高度重叠(Menenti等,2011;Hu等,2023)。另一个有影响力的观点认为,左侧下额语言区在处理句法结构时特别重要,甚至可能在此过程中被选择性地激活(例如,见Hagoort 2005,Grodzinsky & Santi 2008,Friederici 2012)。然而,来自患有句法困难(即所谓的语法性失语症)患者的证据复杂且异质(例如,见Badecker & Caramazza 1985,Berndt 1991),并不支持下额语言区域在句法处理中的选择性作用(Fedorenko等,2022)。此外,fMRI研究表明,每个语言区域对句法结构构建的敏感性都很强(例如,见Bautista & Wilson 2016,Blank等,2016,Shain等,2022a),这一发现反驳了句法处理的聚焦中心理论,每个语言区域至少对词义也有同样强烈的反应(Fedorenko等,2010,2020;Shain等,2024)(见图1f)。过去也提出过语言网络内的其他分工理论(例如,见Hickok & Poeppel 2007,Price 2010,Friederici 2012);然而,关于高阶语言区域之间解离的主张(与言语和语言区域之间的解离类似)未能经受住实证检验。因此,目前的证据不支持大脑皮层语言系统内的区域分化,这与自然认知过程中强烈的区域间功能连接一致(Blank等,2014;Braga等,2020;Malik-Moraleda等,2022)(见图1e)。尽管如此,基于失语症的证据(例如,见Luria 1970,Wilson等,2023),后颞区可能在语言功能中总体上更为重要,并且在空间上可能存在一定的异质性,表现为空间上交织的神经群体(例如,见Jain等,2020,Regev等,2023)。

     迄今为止的研究结果表明,大脑的语言系统是心智和大脑的一个独特组成部分,专门用于语言处理,可以与其他认知系统分离,并且在其区域之间相对功能均质,每个区域都支持与访问词义和组合性(句法和语义)处理相关的计算。这些考虑表明,语言系统是一种自然类型——一个具有本体意义的大脑区域组合——可以相对独立地进行研究(Simon 1962)。在说这句话时,我们并不是想暗示语言系统是独立运作的。没有任何大脑区域是独立运作的。在口语句子理解过程中,语言系统接收来自语音处理听觉区域的输入(Overath等,2015)。而在说话时,语言系统则将输入传递到语音发音区域(Guenther 2016)。语言系统还必须与大脑的更高层次组件进行互动(例如,构建通过语言输入的信息的心智模型)。但是,语言系统必须与其他大脑系统广泛互动这一事实,并不削弱它在心智和大脑中的选择性或独特性(讨论见E. Fedorenko, A.A. Ivanova与T.I. Regev,未发表手稿)。因此,我们接下来的核心问题是:大脑语言系统中的哪些表征和计算使我们能够理解句子的含义或用语言表达思维?我们能否利用人工语言模型(LMs)来模拟这些人类语言处理的组成部分?

1.2. 我们希望从语言处理模型中得到什么?

     在深入探讨人工语言模型用于研究语言系统及其神经基础的作用之前,让我们先思考我们希望从人类语言处理的科学模型中获得什么。一方面,我们希望能够高精度地预测对任意刺激的行为和神经反应。另一方面,我们希望模型具有简洁性,并提供一定的直观理解。大多数过去的语言神经科学工作优先考虑了简洁性,而非高预测准确度,提出的理论大多粗略地将认知过程(例如,句法处理或词汇访问)与特定的大脑区域联系起来(例如,见Friederici 2002,Hagoort 2005,Hickok & Poeppel 2007,Price 2010,Friederici 2012,Fedorenko等,2020,Shain等,2024)。这种解释提供了对特定大脑区域在语言中的作用的直观描述,但未充分说明其在语言反应中的详细内容。特别是,给定句子的表征是怎样的?哪些算法被用来从句子中提取含义?

     心理语言学领域为这些问题提供了进展,基于行为实验和语料库分析,提出了关于语言处理的精细理论。然而,这些理论通常没有试图同时解决语言意义和结构的处理问题,而是侧重于上下文无关的词汇访问(例如,见Dell 1986,Caramazza 1997,Levelt等,1999),词汇层面的语义学(例如,见Landauer等,1998,Pennington等,2014),或与意义无关的句法结构构建(例如,见Clifton & Frazier 1989,Gibson 1998,Lewis & Vasishth 2005)。此外,由于缺乏合适的神经数据(可靠的项目级反应)并且难以对任意语言刺激进行定量预测,这些理论与神经反应的联系也较为困难。

     语言研究长期缺乏的是那些能够用数学描述内部机制的模型,而不仅仅是用语言描述,并且这些模型:(i)可以为任何任意的语言刺激构建表征(刺激可计算性,Yamins & DiCarlo 2016);(ii)是数据驱动的,从而避免了迄今为止在实现和测试关于人类语言的假设时所需要的理论前提;以及(iii)能够准确预测来自人类的行为和神经数据。现代语言模型具备了所有这些属性(第2节),因此为语言研究人员提供了一个激动人心的机会,能够以前所未有的定量精度模拟人类语言行为和大脑对语言的神经反应(第3节),尽管这牺牲了简洁性(第5节)。

2.  语言模型作为人类语言处理的候选模型

2.1. 语言模型是什么?它们体现了什么样的语言知识?

       语言模型(LMs)现在已无处不在,令许多专业人士感到未来就业的不安,令习惯于写作作业的教授们困惑,甚至让一些人相信计算机算法可能具备意识并值得道德考虑。那么,这些是什么?语言模型——有时也称为人工神经网络语言模型或大规模语言模型——是计算机算法,它们被训练来根据先前(或周围)单词的上下文预测接下来的(或缺失的)单词(参见补充材料,第1节)。早期的语言模型——所谓的n-gram模型——基于纯统计方法,估算在某种上下文中最可能出现的单词是哪个,这个估算基于该单词在语料库中出现的频率(Jurafsky & Martin 2008)。然后,在21世纪初,下一单词预测任务被实现于神经网络中,提升了性能(Bengio等,2000)。最近,transformer架构的引入(Vaswani等,2017)(补充图1b)标志着下一单词预测的革命。transformers的训练过程允许在现代计算硬件上并行化,从而高效利用大量的可用文本数据。transformers中的关键机制,注意力,使模型能够通过多个注意力头关注语言的不同方面,这些方面对于预测接下来会出现哪个单词至关重要(Bahdanau等,2015)。通过这种方式,语言模型似乎学会了多种语言规律,从语音模式到单词形式和意义,再到句法结构(见Linzen & Baroni 2021,Pavlick 2022,Mahowald等,2023)。

2.2. 为什么从先验上讲,语言模型可能会捕捉到关于人类语言处理的某些内容?

     我们从显而易见的事实开始:语言模型是继人类大脑之后,首个能够生成流畅且连贯文本的系统。事实上,语言模型的正式语言能力——对语言规则和规律的理解(Mahowald等,2023)——被认为与人类相当(Wang等,2020,Brown等,2020)。当然,语言模型的语言能力本身并不意味着它们以人类的方式表现和处理语言(例如,见Guest & Martin 2023),但相似的行为输出可以说是一个人工模型成为某些生物系统候选模型的必要前提。

     语言模型和人类共享几个其他特性,这使得语言模型成为人类语言处理的合理候选模型但见“语言学习与处理:语言模型与人类的对比”侧边栏)。首先,类似于语言模型的核心训练目标(预测),大量证据表明,人类在理解语言时也会预测接下来的语言输入,这可以通过行为方式进行测量(例如,见Rayner等,2006;Demberg & Keller,2008;Smith & Levy,2013;Brothers & Kuperberg,2021;cf. Huettig & Mani,2016)和神经方式进行测量(例如,见Henderson等,2016;Willems等,2016;Shain等,2020;Heilbron等,2022;有关综述,见Kuperberg & Jaeger,2016;Ryskin & Nieuwland,2023)。

语言学习与处理:语言模型与人类的对比

     尽管现代语言模型能够生成类似人类的语言,但它们与人类语言系统在多个方面有根本性的不同。首先,语言模型所接触的训练数据量(数十亿或万亿单词的文本语料)远超人类语言接触量(10岁时为2000万到7000万单词)(Gilkerson等,2017;讨论见Warstadt & Bowman,2022)。此外,训练数据的类型也截然不同:儿童通过连续的听觉(语音)或视觉(手语)信号学习语言,并且是在与环境的物理互动和社交互动中学习语言(例如,Hoff 2006,Yu & Smith 2012)。其次,transformer模型拥有对所有先前tokens的平等访问权,而人类由于记忆的限制,只能从语言输入中提取相关意义,并迅速丢弃具体的语言序列(Potter 2012,Christiansen & Chater 2016)。最后,语言模型在硬件上实现语言,而这一点与生物大脑有着根本的不同(cf. Kozachkov等,2023)。例如,人类大脑受到线路长度成本的限制,而语言模型则不受这些空间压力的限制,而且反向传播的生物学可行性是一个备受争议的话题(Lillicrap等,2020)。

     其次,语言模型(LMs)获得了丰富而详细的句法知识——这是语言赋予其生成能力的一个组成部分,并且被强调为人类独有的能力(例如,见Berwick & Chomsky 2015)。关于语言模型与人类在句法知识和处理上的相似性(参见van Schijndel & Linzen 2021,Zhang等,2023)的证据来自于传统的语言学方法,如句子语法性/可接受性判断(例如,见Linzen等,2016,Marvin & Linzen,2018,Futrell等,2019,Gauthier等,2020,Hu等,2020,Warstadt等,2020),以及更接近心理语言学的方法,即测量句法复杂性变化对逐词处理难度的影响(Wilcox等,2020,2021)。

      第三,类似于人类(例如,见Jackendoff 2007),除了句法外,语言模型还对多层次的语言结构具有敏感性,涵盖了从子词汇(音位和形态学)规律到单词形式和意义,再到短语和句子层级的结构和意义(例如,见Tenney等,2019,Wang等,2019,Wiedemann等,2019,Manning等,2020,Mikhailov等,2021)。此外,这些不同种类的规律,包括语言结构和意义,似乎在语言模型的内部表征中交织在一起(Bölücü & Can,2022)。正如第1.1节所讨论的,在人类中,语言的不同方面,包括句法和语义的知识和处理,也没有空间分离:它们都依赖于同一组大脑区域(例如,见Fedorenko等,2010,2020;Bautista & Wilson,2016;Blank等,2016;Shain等,2024),即使是在通过高空间和时间分辨率的颅内记录进行测量时(Fedorenko等,2016,Nelson等,2017)。这种缺乏空间分隔并不削弱对句法结构的强烈敏感性;它仅仅表明没有神经单元(在人类或模型中)专门支持句法结构的构建,这大概是因为自然语言中单词的组合方式很大程度上依赖于特定单词的属性,这是所有语言框架现在都承认的。重要的是,人类语言系统和语言模型——这两个系统独立发展并在不同压力下产生——似乎都已达成一种解决方案,用于高效的语言处理,而无需将句法和语义进行区分。

      最后,正如第1.1节所讨论的,在人类中,语言不与非语言任务共享处理机制,包括许多知识和推理方面的内容(例如,见Fedorenko等,2011),即使任务是用语言呈现的(Monti等,2012,Amalric等,2018,Shain等,2023)。那么,语言模型中语言能力与非语言能力也会解离吗?尽管一些语言模型(通过非自然语言的数据进行训练,并且其目标超出了文本预测)在解决推理任务方面变得越来越出色(例如,见Bhargava & Ng,2022,Imani等,2023,Yu等,2023),但纯文本训练的早期版本的语言模型却在这些任务上表现不佳。例如,经过少量文本训练的生成预训练变换器(GPT)模型(如GPT-2模型)展现出强大的语言能力,但在两位数加法/减法问题上表现不佳(Brown等,2020),并且无法对其训练数据之外的可以通过简单逻辑规则解决的示例进行泛化(H. Zhang等,2022)。因此,接近人类的语言能力并不意味着具备接近人类的推理能力(有关进一步讨论,见Fedorenko & Varley,2016,Mahowald等,2023,Wong等,2023)。

3. 语言模型捕捉人类的大脑语言反应

     语言模型的语言能力以及它们与人类语言系统的广泛相似性使得许多人开始质疑,语言模型是否在更精细的层面上与人类相似,特别是在它们处理语言输入时构建的表征层面(参见“语言模型与人类语言网络的相似性”侧边栏)。为量化语言模型与大脑之间的表征相似性,已经开发了多种方法,包括测量语言模型预测来自新语言刺激的大脑活动(编码方法)或解码某个刺激如何引发特定的大脑活动模式(参见补充材料,第2节)。

语言模型与人类语言网络相似的意义

      在这里回顾的研究中,语言模型(LMs)与大脑的比较是在内部表征层面进行的(参见补充材料,第1节)。因此,关于模型与大脑相似性的任何论断都涉及表征,而不是语言背后的算法或实现。尽管算法和表征紧密相关(Marr,1982),它们仍然可以分开。例如,一个语言模型通过仅使用左侧上下文来预测下一个单词的表征,可以产生与使用左右上下文预测掩盖单词的语言模型类似的表征,尽管它们的算法明显不同。因此,根据当前的大多数评估指标(参见Khosla & Williams,2023等),大脑和模型的相似性并不意味着算法或实现的相似性。

      尽管语言模型与人类之间存在显著差异(例如,参见“语言模型与人类语言学习与处理”侧边栏),但语言模型目前是预测人类语言表征的最佳模型,基于我们所能访问的数据分辨率。进一步提炼导致模型与大脑表征相似性的模型属性(第4节)为算法级和实现级的对应性研究奠定了基础,包括使用来自人工智能的机制可解释性的新评估指标和工具(第6节)。

      基于早期将人类大脑反应与去语境化的固定向量表征的单词意义相关联的努力(Mitchell等,2008,Palatucci等,2009,Pereira等,2011,Fyshe等,2014,Huth等,2016)(参见补充材料,第3节),语言研究者现在可以使用现代语言模型来研究大脑与多层次语境化语言表征之间的对应关系。特别地,语言模型提供了一种表征任何任意语言刺激的方法,尤其是重要的组合性刺激,如短语和句子。一些使用递归神经网络(RNN)语言模型的研究表明,包含先前上下文信息的内部表征相比仅包含单词本身或下一个单词的输出概率的表征,更能预测大脑的反应(Wehbe等,2014,Qian等,2016,Jain & Huth,2018)。变换器语言模型(Vaswani等,2017)进一步支持了在语言处理中通过语境表征单词对于捕捉大脑反应的重要性。几项研究报告称,与去语境化的词嵌入模型相比,变换器语言模型的表征与从人类大脑提取的表征之间具有更大的相似性,这一结论在fMRI(Toneva & Wehbe,2019,Anderson等,2021,Schrimpf等,2021,Caucheteux & King,2022,Pasquiou等,2022)(图2a)和颅内记录中(Schrimpf等,2021,Goldstein等,2022,Goldstein等,2023a)得到了验证。上述所有研究都使用了编码模型(参见补充材料,第2节),而语言模型在解码刺激时也表现出实用性,例如在参与者处理句子(Gauthier & Levy,2019,Abdou等,2021,Zou等,2022)或故事(Abdou等,2021,Tang等,2023)时根据大脑活动进行解码。

图片

图2 提炼语言模型属性,这些属性对于捕捉人类大脑的语言反应至关重要
    (a) 模型架构。
    (i) Schrimpf等(2021)调查了几种通用架构类,发现因果语言模型(变换器语言模型,仅使用左侧上下文预测下一个单词)最能预测人类大脑的反应,其次是掩蔽语言模型(变换器语言模型,使用左右上下文)和RNN(基于递归的语言模型),最后是分布语义模型(其中每个句子由去语境化的分布语义单词向量的平均值表示)(参见补充材料,第3节)。
    (ii) Antonello等(2023)显示,随着模型参数数量的增加,大脑编码性能呈对数函数增加[对于一种因果语言模型类(S. Zhang等,2022)],超过300亿个参数的模型表现趋于平稳(这一平台部分可能归因于人类大脑数据的局限性)
    (b) 模型行为。
    (i) Caucheteux & King(2022)证明,越能预测下一个(或缺失的)单词的模型也越能预测大脑反应(参见Schrimpf等,2021)。    

    (ii) Kauf等(2024)改变了传递给语言模型的输入(Radford等,2018),并评估了模型在大脑对原始未修改输入的反应上的编码性能。他们发现,当保留内容词(绿色条)时,预测能力仍然很高,而只有功能词被保留时(黄色条),预测能力则较差。
    (c) 模型训练。
    (i) Aw & Toneva(2023)通过在书章节摘要上微调掩蔽语言模型,并显示了几个解剖学定义的语言区域在大脑编码性能上的改善。
    (ii) Hosseini等(2024)显示,在一组发展上合理的数据量下训练的因果语言模型(红星)表现出与使用10亿个标记训练的模型(浅绿色点)或完全训练的语言模型(灰点)相似的大脑编码性能(Radford等,2018)。
缩写:E,嵌入;h,隐藏状态;LM,语言模型;n.s.,无显著性;RNN,递归神经网络。

     大多数研究都专注于建模语言理解期间的大脑反应,但一些近期研究显示:利用自发对话中记录的颅内大脑活动(Goldstein等,2023b,Zada等,2023)证明,语言模型也能在语言产生过程中预测活动,甚至在语言发音开始之前这些结果表明,语言系统依赖于语言结构和意义的抽象表征,这些表征支持理解和产生,并且与变换器语言模型所学的表征相似(Zada等,2023)。重要的是,语言模型并非训练用于预测人类数据或解释人类对语言的反应;它们通过被训练以预测文本中的单词,自动获得与人类语言相似的表征。

4. 我们如何利用语言模型研究人脑中的语言处理?

      综上第2和第3节,在语言研究史上首次,我们拥有了不仅能够产生和理解语言(这一壮举长期以来被认为只有人类才能实现,参见Chomsky 1965),而且能够以与人类足够相似的方式表征语言信息的语言模型,从而使在语言处理过程中可以较为准确地进行大脑编码和解码(参见侧边栏“语言模型与人类语言网络的相似性意味着什么?”)。这些模型现在可以被系统性地探查,以识别对模型与大脑对齐至关重要的属性(第4.1节),同时它们也可以作为体内外的模型有机体,以前所未有的精度和规模评估关于语言的假设(第4.2节)。

4.1 哪些语言模型属性使它们能够捕捉人类对语言的反应?

     语言模型在多个维度上存在差异(见图2),包括:

  • (i) 模型架构:涵盖固有属性,如层数和参数数量;

  • (ii) 模型行为:即模型在自然语言处理任务上的表现;

  • (iii) 模型训练:包括训练任务(目标)和训练数据。

     目前已有许多研究探讨了捕捉人类语言反应所需的各种模型属性,这些研究包括对现成语言模型(在实际环境中研究语言模型)以及对仅存在最小差异的语言模型(受控实验研究)的比较。

4.1.1 模型架构

     所有神经网络都由其架构定义——即神经元样单元的排列以及定义这些单元连接方式的数学运算。架构决定了在训练过程中能够学习到何种类型的表征。一个广泛的区分在于总体架构类别,目前两种主导的语言模型架构是递归神经网络(RNNs)和变换器(transformers)。一些研究发现,变换器语言模型在预测大脑数据方面优于RNN语言模型(Toneva & Wehbe 2019,Schrimpf等 2021)(见图2a);但其他研究报告,一类被称为长短时记忆模型(LSTMs, Hochreiter & Schmidhuber 1997)的RNN语言模型与变换器语言模型表现相当(Hollenstein等 2019,Anderson等 2021,Oota等 2022a,Pasquiou等 2022),而Abnar等(2019)发现,与变换器相比,LSTM的内部表征与人类大脑数据的对齐程度更好。然而,大多数过去的研究使用的是现成模型(参见Pasquiou等 2022),这些模型不仅在架构上存在差异,而且它们接受的训练量也不同,通常变换器接受的训练数据量要大得多。

     总体而言,根据目前的证据,没有哪一种特定的架构属性对大脑对齐至关重要:许多语言模型架构的不同实例都能很好地拟合大脑数据(Schrimpf等 2021,Caucheteux & King 2022,Pasquiou等 2022,Antonello等 2023;关于视觉和听觉领域的类似发现,参见Conwell等 2023,Tuckute等 2023)。话虽如此,至少对于变换器模型来说,更大的模型在预测大脑数据方面表现更佳(Schrimpf等 2021,Caucheteux & King 2022,Antonello等 2023)(见图2a)。此外,也有一些方法开始被开发,以期更好地区分高性能模型,例如通过使用所谓的“有争议的刺激”,不同模型对这些刺激做出不同预测(例如,参见Golan等 2023,Hosseini等 2023)。此类方法可能有助于揭示那些在调控模型与大脑相似性方面起关键作用的架构动机。

4.1.2 模型行为

     一个强有力的观点认为,神经表征(无论在生物系统还是人工系统中)都受到行为需求的塑造(例如,Khaligh-Razavi & Kriegeskorte 2014,Yamins等 2014,Kell等 2018)。实际上,在目标行为上表现更佳的人工网络——无论是视觉神经网络中的目标识别还是语言模型中的下一个单词预测——似乎会发展出与大脑更为相似的表征。在语言领域,一些研究发现,在下一个单词预测任务上表现更好的模型也更能捕捉大脑反应(Schrimpf等 2021,Caucheteux & King 2022,Hosseini等 2024)(见图2a)。相比之下,模型在其他语言任务(包括对句法或语义句子属性的判断)上的表现,并没有显著解释模型与大脑之间的相似性(Schrimpf等 2021)。这些发现引出了这样的主张:语言模型预测即将到来的语言输入的能力是解释其类人表征的关键因素。然而,后续工作对此提出了质疑。尽管有大量证据表明人类语言处理具有预测性(例如,见Smith & Levy 2013,Willems等 2016,Shain等 2020,Heilbron等 2022),但模型在某项任务上的表现与其与大脑相似性之间的相关性,并不必然意味着模型与大脑执行相同任务。Antonello & Huth(2024)建议,关键因素可能是表征的泛化能力。他们估算了某个语言模型的表征如何转移到一大组语言模型的表征,并展示该指标与模型与大脑相似性得分呈正相关。这一发现表明,下一个单词预测目标可能仅仅是一种获得泛化表征的强大方式;目前尚不清楚:(a) 是否其他训练目标也能产生同样泛化的表征;以及如果可以,(b) 这种表征是否能够解释类人表征,或是否下一个单词预测目标具有某种特殊性。

      模型行为对大脑预测能力的影响还可以通过考察模型的表征如何响应语言输入的操控而进行研究。例如,改变一句话的结构或意义会如何影响模型表征预测原始句子对应大脑反应的能力?这种方法有助于分离出对模型与大脑相似性起关键中介作用的表征方面。Kauf等(2024)进行了一系列实验,系统性地扰动一句话的结构(例如,局部单词交换、删除功能词)或意义(例如,删除名词或动词,或通过释义保留接近意义或仅保留大致主题)(见图2b)。他们发现,单词意义是模型与大脑相似性的主要贡献因素;相比之下,一句话的句法形式并没有携带太多与大脑相关的信息。句法特征对模型与大脑相似性的重要性有限,这与另一项输入扰动研究的结果一致:Caucheteux等(2021a)通过平均十个具有相同句法结构但意义不同的句子的嵌入获得了一个句法框架的表征,并将句法嵌入的残差视为语义表征。他们显示,语义表征总体上比句法表征具有更高的预测能力。未来的研究应该探讨以下几个方面:fMRI的低时间分辨率、使用词序对理解不那么重要的材料,以及语言模型和人类在句法结构编码方面的差异,这些因素在多大程度上限制了对模型-大脑相似性中结构效应的检测。

4.1.3 模型训练

       模型训练过程中一个关键方面是训练数据的数量和类型。例如,语言模型预测大脑数据的能力是否严重依赖于在大量文本(远远超过人类接触量,参见Gilkerson等 2017,Warstadt & Bowman 2022)上进行训练?(参见“语言模型与人类语言学习与处理”侧边栏)。Hosseini等(2024)表明情况并非如此:在发展上合理的数据量下训练的语言模型已经能够很好地捕捉大脑反应(见图2c)。然而,某种程度的训练是必需的(Schrimpf等 2021,Caucheteux & King 2022,Pasquiou等 2022;讨论见Hosseini等 2024)。此外,训练语言模型所用的数据类型也可以进行操控,以探究哪些属性对捕捉大脑反应至关重要。Pasquiou等(2023)在两个版本的文本语料库上训练了语言模型:一个语义版本,仅保留内容词;一个句法版本,仅保留形态句法特征(例如词性标签和一致性信息)。他们发现,这两种数据集训练的模型各自都能在一定程度上预测大脑数据,尽管语义特征能预测更大范围的大脑反应(参见“我们在建模什么?”侧边栏)。

我们在建模什么?

     一些研究者专门通过功能定位器来瞄准语言系统(例如,Saxe等,2006;Fedorenko等,2010),另一些则使用预定义的解剖区域,还有一些则研究大脑全脑的反应。通过专门瞄准语言皮层进行功能定位,我们可以测试语言模型(LMs)在多大程度上能够捕捉大脑中的语言处理,而不受语言系统感知输入处理(例如,Overath等,2015)或对语言意义进行处理的下游认知过程的干扰。当然,大脑中意义的表征并不限于语言特定的皮层区域(例如,Huth等,2016),因此那些对更广泛的意义表征感兴趣的研究人员可能会选择检查大脑或已知涉及特定意义方面的脑区的神经活动(例如,Jain & Huth,2018;Anderson等,2021;Toneva等,2022)。目前尚不清楚语言模型的不同组成部分是否捕捉了核心语言区域与其他大脑区域之间的差异,这仍然是一个重要的开放问题。

      那么,关于训练任务呢?大多数已被分析与大脑相似性的模型都经过了下一个单词预测(因果语言模型)或缺失单词预测(掩码语言模型)训练,并且因果语言模型在预测大脑数据方面优于掩码语言模型(Schrimpf等,2021;Caucheteux & King,2022;参见Pasquiou等,2022)。一些研究调查了微调如何影响语言模型预测大脑反应的能力。特别是,在下一个单词预测目标训练之后,语言模型可以在特定数据集或任务上进行微调,这会迫使模型关注特定的任务相关信息。结果并不一致。Gauthier & Levy(2019)将变换器语言模型微调到四个标准自然语言处理(NLP)任务(例如,问答),并发现所有四个任务相较于未微调模型,都降低了大脑解码性能。相比之下,Oota等(2022b)将语言模型微调到10个NLP(自然语言处理)任务上,发现许多任务的脑编码表现有所提高,这表明这些任务强调的表征特征可能也在人类表征语言信息的方式中占有重要维度。Gauthier & Levy(2019)还将语言模型微调到两个自定义任务上,分别是预测句子中的缺失单词或预测在单词顺序被打乱的语料库中,哪一句话可能会跟随其后,从而选择性地排除词序信息。微调这些任务实际上提高了解码性能,这再次表明,句法信息对捕捉语言反应的重要性有限(至少在fMRI句子层面数据中如此),类似于Kauf等(2024)和Caucheteux等(2021a)的研究。最后,一些研究发现,通过叙事总结(Aw & Toneva,2023)或在与大脑录音对应的文本上进行下一个单词预测(Merlin & Toneva,2022),对语言模型进行微调能提高大脑编码表现(见图2c)。

4.2. 使用编码模型作为硅中语言网络

     语言模型还可以用于模拟和设计神经科学实验。这些应用依赖于准确的编码模型,即将语言模型表征与大脑反应之间的映射(见补充材料,第2节)。现代语言模型能够表征任何语言输入,从而预测大脑对任意新刺激的反应。因此,编码模型可以作为虚拟语言网络来模拟语言区域的反应。这种硅中实验可以用于:(i)验证先前的实证发现;(ii)测试新的操控,这些操控在没有人类大脑数据的情况下无法进行(Wehbe等,2018;Jain等,2020,2024;Ratan Murty等,2021)。例如,使用基于LSTM的编码模型,Jain等(2020)(参见Caucheteux等,2021b)能够重新推导出先前关于听觉区域的短时间整合窗口和语言区域的长时间整合窗口的实证发现(Lerner等,2011;Blank & Fedorenko,2020)。

      编码模型还可以用于识别特定系统的超常刺激(Barrett,2010),即那些引发最强反应的刺激。然后可以在闭环设计中通过实证评估这些预测,并对关键刺激进行分析,以更好地理解相关脑区支持的计算过程。这种方法在系统神经科学中已被证明是成功的(例如,Bashivan等,2019;Ponce等,2019),Tuckute等(2024)将类似的策略应用于语言网络。他们首先基于1000个多样句子的脑反应构建了一个编码模型,然后为数百万个新句子生成预测,最后收集新参与者对这些预测会引发最强反应的句子的脑反应(驱动句子)。这些驱动句子确实在语言区域引发了非常强的反应,这表明基于语言模型的编码模型足够准确,可以用于指导实验,研究涉及更高认知过程的脑区。对驱动句子的分析进一步揭示,语言区域对语法和/或意义异常的惊讶句子反应最强。关键是,使用模型预测来获得实验刺激,实际上扩展了假设空间,超出了实验者先入为主的观念。

5. 使用语言模型理解大脑中语言的挑战

5.1 一般方法论挑战

     使用语言模型(LMs)来理解人类语言系统面临诸多挑战。一个挑战在于,变换器语言模型——目前使用最广泛的架构——极具表达能力(Yun 等,2020),使它们能够在任何序列输入数据(文本、音频、氨基酸等)中发现模式。有些人将变换器描述为通用计算引擎(Lu 等,2021)。这种强大能力使得必须严格设置对照,以确保所获得的结果不是由琐碎原因(例如,低级句子特征的编码)引起的,而是反映了实验者所期望的内容(讨论见 Kauf 等,2024)。

     其他挑战则源于如何将语言模型的表征与神经数据进行比较(参见补充材料,第2节)。例如,语言模型能够提供具有长上下文窗口的语言输入表征,这意味着在叙事中,模型在为每个单词生成表征时,会考虑整个之前的故事。根据数据如何划分为训练集和测试集,如果表征是通过考虑完整序列而获得的,则上下文表征可能会使模型与大脑的相似性被夸大(Antonello 等,2023;Kauf 等,2024)。此外,大多数将语言模型表征与大脑数据进行比较的研究,并未测试对保留参与者的泛化能力(Jain & Huth 2018;Toneva & Wehbe 2019;Jain 等,2020;Schrimpf 等,2021;Merlin & Toneva 2022;Oota 等,2022b;Aw & Toneva 2023;Hosseini 等,2024;参见 Toneva 等,2022;Tang 等,2023;Tuckute 等,2024),这可能导致依赖于特定参与者的个性化特征。这种过拟合对某些医学应用(例如,面向特定患者语言/语义系统的个性化脑机接口,参见 Tang 等,2023)可能无关紧要,但它阻碍了通用语言模型的发现。最后,目前尚缺乏共识来定义语言模型表征与神经记录之间理论上的最大相似性,即“噪声上限”。在感知领域,噪声上限通常通过重复呈现同一刺激来估计,假设同一刺激的重复呈现会引发相同的神经反应(例如,见 Allen 等,2022)。然而,这一假设可能不适用于语言(或其他认知领域)。从实际角度讲,收集多次重复语言刺激的大脑反应也颇具挑战,因为语言处理需要持续的注意力投入(例如,见 Cohen 等,2021),而这在多次重复刺激时更难维持。因此,各研究在收集语言神经科学数据和评估数据可靠性的方法上存在很大差异,这给跨研究比较带来了挑战。

5.2 与神经科学和工程目标日益分歧相关的挑战

     人工智能(AI)与神经科学有着深刻交织的历史(例如,见 Zador 等,2023)。近年来,神经科学家受益于 AI 工程领域的进展,将工程师开发的模型重新定位为生物大脑神经过程的假设。对于语言领域,长期以来工程师/计算机科学家与神经科学家的目标是一致的:前者致力于创建能够理解和产生语言的模型,后者则寻求这些模型以理解人类的语言处理。随着变换器语言模型的出现使得形式语言能力达到了类人水平(Brown 等,2020;Wang 等,2020),这两个群体的目标开始出现分歧。

     AI 的主要目标现已转向开发人工通用智能(AGI)模型:即经过下一个单词预测训练后,再适应于执行各种下游任务(包括语言领域以外的任务,如解决数学证明)(Bommasani 等,2022;Imani 等,2023)。支持广泛任务的能力导致这些模型与高度专注于语言任务的人类语言系统越来越不同(见第1.1节)。开发通用模型的目标促使模型不断增大,其规模(模型大小、训练数据量和计算量)的提升按照扩展定律预测会带来性能改进(Kaplan 等,2020;参见 McKenzie 等,2023)。此外,为了支持更广泛的任务,这些模型正在扩展其训练数据以包含非语言输入(例如图像、计算机代码)(Achiam 等,2023),并整合诸如基于强化学习的人类反馈等附加目标(Ziegler 等,2019)。与更大、更多样化的 AGI 模型相比,神经科学家更倾向于寻找既具有高预测力又简洁的模型(见第1.1节)。然而,更大的模型本质上不够简洁,并不总能提升行为和大脑反应的预测准确性。例如,经文本预测训练的更大模型在预测人类行为数据(如阅读时间)方面实际上表现更差(Shain 等,2022b;Oh & Schuler,2023;Steuer 等,2023)。它们在某些语言任务上的表现也似乎变差,难以处理否定(Jang 等,2023;McKenzie 等,2023)和量词(Gupta 2023;Michaelov & Bergen 2023),并且往往更倾向于记忆(Carlini 等,2023;McKenzie 等,2023)。虽然预测大脑反应的能力随着模型大小增加而增强,但这种关系似乎在大约300亿参数时趋于平稳(Antonello 等,2023)。总体而言,对于当前该领域试图建模的数据类型来说,更大语言模型在预测准确性上呈现递减效应(对于更高维数据,例如单一神经元记录,这一情况可能会有所变化)。此外,更大的模型因参数更多、训练数据更大、更为多样,以及通常还会进行其他目标的微调,因而在解释上面临更大挑战。

     在工程领域开发的更大模型对神经科学家还提出了另外两个挑战。首先,这些模型通常是专有的,不提供对模型内部细节甚至架构或训练信息的访问(Achiam 等,2023)。其次,由于缺乏这些信息和/或计算资源,科学家们无法进行受控的实验性模型比较,这通常需要例如从头重新训练模型。

     总之,最新的 AI 模型似乎比一些早期模型更难解释人类语言处理,并且实际限制使神经科学家无法以严格(透明且可复制)的方式在其研究中使用这些模型。

6. 接下来是什么?

     计算认知神经科学领域仍处于起步阶段(Naselaris 等,2018),尤其在语言领域。然而,本文总结的初步成功为未来的努力奠定了有希望的基础。该领域的核心目标是构建日益精确的人类语言系统模型。朝这一目标迈进的一步是构建在发展上合理的模型,这些模型能够直接从语音信号以及现实数量和类型的数据中学习语言计算(例如,Beguš 2021;Warstadt 等,2023)。另一关键步骤是开发能够与低级机制(例如语音感知机制)和高级知识与推理系统互动的语言模型。尽管语言本身与这两者均有区别,但人类语言系统必须与感知、运动控制和认知相互作用,以实现人类能力的全面展现。构建这样的多组件模型也可能为理解表征如何从低级感知转化为语言再到下游推理提供关键线索。最后,另一个重要目标是开发能够解释实现/算法级过程的模型,而不仅仅是表征相似性(Blank 2023)。人工智能领域中机制可解释性的发展为剖析模型内部工作原理提供了越来越多的工具(例如,见 Wang 等,2022;Hosseini & Fedorenko 2023;Meng 等,2023)。神经科学家可以利用这些工具提出关于支撑语言行为的实现和算法的假设。这些假设机制随后可以被操控或消融,其对(i)下游语言任务表现和(ii)模型与大脑相似性的影响都可以被评估,从而形成一个假设生成与测试的良性循环。

      总之,人工语言模型为语言研究者提供了一种强有力的新工具,通过提供计算上明确的假设来理解人类语言处理可能在大脑中如何运作。像所有方法论手段一样,语言模型也存在局限性并面临诸多挑战。尽管如此,这些模型已经突破了我们理解语言处理的神经、认知和计算架构之路上的关键障碍,提供了前所未有的计算精度,为理解人类语言系统带来了令人兴奋的机会。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值