语音韵律及其神经基础

最新推荐文章于 2024-03-15 17:07:26 发布

思影科技

最新推荐文章于 2024-03-15 17:07:26 发布

阅读量1.8k

点赞数 1

分类专栏：神经科学核磁影像

本文链接：https://blog.csdn.net/cc1609130201/article/details/109682012

版权

神经科学同时被 2 个专栏收录

73 篇文章

订阅专栏

核磁影像

44 篇文章

订阅专栏

口语的识别通常是通过关注单词或其组成元素(例如，低层级特征或音素)来研究的。最近，人们对语音的“时间中尺度”进行了探索，特别是声学信号包络中与音节信息相关的规律，这些规律在产出和感知加工中起着核心作用。在这种尺度下，语音的时间结构在不同语言之间非常稳定，韵律性的首选范围为2- 8Hz。重要的是，这种韵律性是构成可理解语音的基础加工所需要的。目前的许多工作集中在语音中的听觉-运动相互作用上，突出了行为和神经证据，这些证据表明感知和运动系统的属性及其关系是如何构成中尺度语音韵律的基础的。这些数据引出了一个假设，即语音运动皮层最好被建模为神经振荡器，这是一个与当前强调神经振荡在感知和认知中的基本作用的提议非常一致的猜想。这些发现也从不同的角度展示了语音运动理论，对运动-感知接口的解释提出了新的机制限制。

语音加工的研究通常集中在“小片段”上，也就是说，在识别和产出语音时“区别性特征”、“音位”如何构成识别和解码的要素(图1a，b)。构成要素(即“词”的构成)在感知和产出以及词汇加工中的关键作用被广泛认识和研究。有些独立进行的研究中开始强调语音的一个不同属性——较慢的信号调制更具组块的特征，即音节(图1c)。与对基本声学-语音特征(图1b)的考虑相比，这种“中尺度语音”受到的关注较少(图1c)。最近令人惊讶的发现之一是，在这个时间尺度上量化的语音具有高度规律性的时间结构，这一属性很可能是大脑环路组织和语音运动系统的生物力学的结果。识别系统也利用了这种时间、韵律的规律性。现在，越来越多的工作(从心理物理学到生理学，再到建模)都建立在这些观察的基础上，以开发包含语音的“分段”、“解码”和“听觉-运动整合”的模型。

语音是韵律性的这一说法让人既着迷又沮丧。一方面，这一猜想导致了一系列新颖的研究。另一方面，对韵律性的怀疑引发了激烈的争论。可以肯定的是，语音不是周期性的(正式意义上的同步信号)。然而，非正式的观察(例如，跨语言的语速似乎明显受限)和定量描述都得出了这样的结论，即语言是有韵律的，因为它具有规则的时间结构，这可能反映了感知和产出系统的深层属性。

本文的数据、模型和论点是从经验出发的，即语音信号的中尺度有足够的时间规律性(图1c)，这一属性值得从不同的角度考虑。尽管我们注意到人类语言的丰富性和多样性，但同样被它们之间的相似程度所打动。本文发表在Nature Reviews Neuroscience杂志。（可添加微信号siyingyxf或18983979082获取原文）。思影曾做过很多语言相关的脑影像文章解读，可结合阅读，提高理解，我本人比较推崇那篇：语言、心智和脑（直接点击即可浏览）

语前婴儿与成人相似的语音统计学习模式：来自神经夹带的证据

Nature子刊：脑卒中后失语症语言恢复的神经计算基础

BRAIN：失语症词汇产出的白质结构连通性：DSI研究

Neuron：发音运动轨迹在大脑语音感觉运动皮层上的编码

Nature子刊：灵活的语音皮质编码可增强与任务相关的声学信息

Science：从个人口语到社交世界:人类口语的神经处理

Science：句法和语义组合的神经基础

Nature子刊：语言、心智和脑

Science：语言在单字层面以上的神经处理

PNAS：与语言相关的脑网络中特定频率的有向连接

音位：不仅仅是词汇获取

ERP研究：母语促进视觉意识的理解

图1.通用声学语音信号的不同时间尺度表征。

a.男性英语朗读者发出的“Baby you can drive my car”这句话的声学波形。Y轴以任意单位(arbitrary units, a.u.)表示声压级的振幅。

b.信号的频谱图强调短尺度动态。用10到25ms(这里是25ms)的时间窗口分析语音的典型频谱值与典型音节持续时间(~200ms)相比尺度较短。频谱图表示允许随着时间的推移可视化音位特征。例如，元音由它们的共振峰模式(增强的能量频带；例如，黄色阴影区域定义/a/和/i/元音来定义)，而辅音(例如/k/由红色阴影区域表示)由没有结构化频率模式的噪声突发来定义。

c.中尺度表征：波形幅度随时间的演变，即所谓的语音包络(淡红色痕迹)。包络中的灰色箭头通常对应于音节边界，在时间上大致呈规则分布。

语音产出表现出韵律性

声学领域的韵律性。声学语音信号的波形显示信号幅度的递增和递减序列(图1a，c)。这种通常被称为语音包络的调制受到了相当大的关注。许多研究表明，语音包络呈现出稳定的时间规律性。这种规律性不只是语音信号的一个附带特征，而是在语音理解中起着关键作用。

由于清晰度与语音时间结构之间的联系，人们大多从知觉的角度对包络进行研究。研究人员通常不是描述进入耳朵的宽带声波波形(图1c)，而是首先将信号分解成频带，并探索这些分段的频带内的波幅调制--窄带分析。各种这样的分解可以在文献中找到，它们代表了人类听觉系统的不同属性；例如，耳蜗派生的频率分解(与听觉系统的关键频带滤波相比)或皮层神经元的调制调谐。无论采用哪种类型的分析，所有研究都集中在同一个结论上：语音包络具有总体1/f噪声频谱，当去除该频谱时，显示出2至8Hz之间的功率增加，在4至5Hz之间有一个显著的峰值。重要的是，这些特征在说话者、语言和说话条件(例如，采访、电话交谈或有声读物)中都得到了保留(图2a)。

在听觉系统特有的频率分解之前，信号是什么样子的？当在原始(直接从嘴里出来，宽带)声学信号上计算时，语音包络频谱显示出与窄带分解上计算的相同的模式，但在较低的频率下包含更多的功率。为了量化这一点，作者使用宽带分析重新分析了以前用窄带方法探索的语料库(图2b)。与窄带分析一样，调制频谱在不同语言和说话者之间非常稳健。然而，峰值频率被移动到一个略低的范围。窄带方法(在计算包络之前应用关键频带滤波)显示的峰值范围为4.3至5.4 Hz；宽带分析显示的范围为3.5至4.5 Hz(图2b)。

综上所述，语音不仅被认为是准韵律的，而且产生的声音信号本身也具有显著的时间规律性。有趣的是，感觉到的韵律似乎比身体信号传递的韵律稍快一些。

图2.语音产生表现出韵律性。

a.跨语言的语音包络的时间结构。对来自不同语言的不同语音样本进行了两次窄带分析。与用于窄带分解的语言和分析滤波器无关，频谱在2至10Hz之间显示清晰的峰值。

b.在原始声音信号上计算的语音包络频谱。同样，调制频谱峰值在不同语言之间显示出微小的变化，并且被限制在3.5到4.5Hz之间。

c.不同领域(发音学、声学、语言学)的语音韵律性。上面的三条轨迹：同一被试的下唇(LL)、舌尖(TT)和下切牙(LI)在句子产出过程中的一般垂直位移。浅蓝色轨迹代表发音测量的平方根的乘积。在自然的语音产出过程中，大多数时候发音器的动作是高度相关的。然而，有时(虚线)收缩只是由其中一个发音器引起的。在这个时间点，韵律性在某些发音关节的轨迹中被打破，但在合作动力中却没有(浅蓝色痕迹)。底部是语音声学波形及其相应的包络。

发音领域的韵律性。语音信号来自复杂的运动姿势，涉及上声道发音器官(软腭、唇、舌和下巴)的精确运动和声带的激活。从生物力学的角度来看，鉴于效应器的数量，特别是舌头的许多自由度，语音产出是一个高维度的问题。

然而，实验证据显示了该问题的降维：语音产生期间主要发音的时间动态可以仅由七个参数来描述；声道形状决定了(英语)元音可以被定义为两个规范“变形模式”的线性组合；并且可以根据口腔中离散数量的点的位置和唇部的测量来合成可理解的语音。这种降维可以看作是声道发音器没有独立运动学的结果。相反，他们的动作是协调一致的，以实现共同的声道目标。例如，在发音/b/的过程中，目标是阻塞声道的前部，因此嘴唇和下巴的运动之间存在协同作用，以达到完全闭合的目的。每个关节的运动轨迹不是由声学目标明确定义的;相反，保留下来的是不同发音器官之间的动力学关系——例如，/b/可以通过嘴唇的小位移来发音，而下巴的大闭合弥补了这一点，反之亦然。此外，在神经水平上，运动皮层并不编码单个发音器的运动，而是编码产生声道收缩所必需的协调发音模式。

运动姿势在时域中的特征揭示了时间规律性。例如，在以正常速度重复一句话的过程中，下巴和嘴唇的移位--比如“buy Bobby a puppy”或者 “mommy bakes pot pies”等双唇音过度表征的句子——会在4-5Hz之间在两个发音关节的轨迹上表现出振荡的行为。此外，在正常速率的音节重复过程中，舌头的动态在相同的范围内呈现出韵律性。一项研究在以自然韵律发音两个短语的同时，测量了12名被试的下颌运动，发现被试之间的频率接近5Hz的准规则行为。此外，在更自然的条件下也有韵律性的报道。测量了一名被试在1.5小时自然阅读期间连续张开下颌之间的时间间隔所获得的直方图显示接近250ms(即，4 Hz)的清晰峰值。最近，研究人员测量了不同被试在不同说话条件下、无结构对话或完整句子的张嘴面积。同样，嘴部区域显示出2到7Hz之间的韵律调制。

综上所述，在不同的说话条件下，独立发音的动作都会出现韵律性。然而，语音并不依赖于单个发音器的动力学(图2c，上面三条轨迹)；它来自发音器之间的合作动力学(图2C，下方轨迹)，以实现共同的目标。因此在自然语音产出过程中，发音者之间相互作用的韵律被保留下来，而不是孤立要素的韵律。

语言学领域的韵律性。虽然我们对音节单位有直观的概念，但正式的语音定义是有争议的。例如，一些英语单词的音节与说话者有关(例如，“predatory”可以用三个或四个音节发音)；对于一些单词，考虑读写能力的因素，即使发音相同，听话者估计的音节数量也会不同(例如，“communism”可以被描述为一个三音节或四音节的单词)。然而，这种分歧是个别情况，而且大多数语言话语都有相对清晰的音节。

此外，从感知和产出的角度看，音节起着至关重要的作用。许多研究表明音节具有相关的认知含义，并且被认为是最优的发音运动单位。语音运动编程被认为是由顺序排列的并列结构(发音运动单位)组成的，每个音节代表产出音节的运动指令。这一假设在计算上是有动机的，并得到了实验上的支持。Guenther等人开发了一个用于语音获取和产出的神经网络模型，假设独特的“语音映射单元”编码了该语言的频繁使用的音节，并且在流利的语音产出过程中这些映射单元被顺序激活。这个模型成功地解释了许多语音产出现象。因此，对于流利说话者来说，音节看起来就像是自然的运动单位。

在语音学文献中，音节率是评价说话人语速的常用指标。音节率是所有口语项目的平均值，并且音节序列与任何其他生物基础信号一样，并不完全同步。此外，音节时长的系统性变化也得到了很好的证实。例如，在英语中，平均音节时长约为200ms，而非重读音节(<150ms)往往比重读音节(>300ms)短。尽管音节时长可变，但音节率的取值范围相当有限。虽然不同语言、方言、说话条件、年龄、性别在音节率方面存在显著差异，但该值的变化始终限制在2.5 ~ 8 Hz之间(对应的时长在~125 ~ 400 ms之间)。此外，报告值的部分差异来自于使用不同的音节率定义。例如，音节率可以计算为音节数除以发声总长度(原始音节率)，或者除以发声总长度减去任何无声间隙(发音率)。使用原始音节率的研究报告的值在3到5.5Hz之间，而使用发音率的研究报告的范围是5到8Hz。对于任何一种测量方法，结果都反映了潜在的韵律规律，这表明，在说话过程中，音节是按顺序产出的，在说话者、条件和语言之间都有相对一致的速率。

跨域语音。表征语音的三个领域--信号的包络(来自声学)、声道的运动(来自清晰度)以及音节时长和音速(来自语言学)是高度相互关联的。一方面，发音器的动力学在很大程度上决定了语音声学的幅度和产出的音节率的调制。另一方面，包络的局部极小值近似音节边界。此外，为了实现共同目标，发音器之间的协同运动序列以准韵律的速度发生，产生声道开放和收窄的循环；从声学的角度来看，声道充当声带产生的声音的过滤器——因此，在声道闭塞或收缩期间，发出的声学信号的幅度最小；在由音节化清晰的元素组成的流畅语音中，音节边界由语音包络中的局部极小值定义。

实验结果表明，不同语音域之间存在一定的相关性，在同一个窄频段内都表现出准韵律特征。跨领域的韵律性源于相同的原因：语音的运动姿势以相对规则的时间间隔顺序执行。

语音感知表现出韵律性。

听觉对包络的夹带。当听觉皮层受到声音刺激时，它会完全追踪输入信号的波幅调制。这种效应通常被称为“夹带（entrainment）”。就语音而言，这种刺激与大脑的相互作用变得相当复杂，依赖于自下而上(即前馈)和自上而下(即反馈)相结合的过程。数据显示，当感知不可理解的信号时，例如外语或逆向语音，听觉区域被声学包络所包围。此外，当构成理解的过程也在起作用时，这种夹带是自上而下调节的，例如通过注意或语义语境。支持大脑到语音的夹带的精确机制仍然是深入研究的主题。具体来说，自上而下和自下而上的过程是如何相互作用的，以及夹带是否反映了听觉皮层中正在进行的振荡的重置或对声学信号的物理属性的附加大脑响应，或者两者的组合，都是有争议的。数据显示，语音的韵律结构作为输入被传递到语音神经加工的早期阶段。

有人推测，语音包络追踪对语音理解起着因果作用。具体地说，一种假设是，听觉区域恢复的韵律结构允许听者将连续输入的语音信号转换成分段的、离散的单元，这些单元形成后续解码步骤的输入。神经生理学数据显示，听觉对语音包络的夹带，特别是在4到8Hz的theta频段，与智商相关。此外，从一个相关的角度来看，夹带现象在阅读能力差的儿童和阅读障碍儿童中也被证明是不正常的。尽管这些发现揭示了包络追踪和理解之间的联系，但它们并没有巩固因果关系。最近，在研究中对因果关系进行了更直接的评估，这些研究在语音感知过程中对颞区施加电刺激，干扰了theta频段中语音包络的神经夹带。结果表明，折衷的夹带导致清晰度下降。

总而言之，证据表明，语音的韵律结构被知觉系统恢复，并对口语理解起着至关重要的作用。

语音韵律增强了知觉。就感知系统追踪并依赖于语音的韵律结构而言，该系统对于任何频率范围是否同样有效，或者它是否调整到语音的自然韵律；也就是说，对于2至8Hz之间的音节率而言，感知是最佳的。

在没有频谱提示的情况下，波幅调制的知觉作为听觉系统时间分辨率的指标已经被广泛研究。在这种心理物理研究中，载波信号是正弦调制的，阈值被定义为听者区分调制和未调制波形所需的最小调制波幅。尽管结果显示载波的频谱含量和调制信号的频率之间存在相互作用，但通常的发现是，对于2和8 Hz之间的调制频率，阈值保持相对稳定，并且在该范围之外增加——即感知性能降低。

与这些行为结果一致的是，在这个范围内，听觉皮层的反应更好地适应了时间调制率。在所有研究中，无论信号的频谱内容如何，听觉皮质活动都表现出增强，主要是在右半球，2-8Hz的调制频率(REFS)，以及在相同范围内对调制相位的更好追踪。听觉皮层对这些调制速率的高度敏感性也可以从功能磁共振数据中看出，这些数据明确地沿着听觉通路进行了探测。

谈到语音，当信号的韵律结构位于一定的频率范围内时，清晰度就会提高。评估压缩语音理解能力的行为学研究表明，当语音速度提高到每秒8个音节时，性能保持稳定，而当速度达到每秒10个音节时，性能显著下降。此外，当周期性的无声“间隙”被插入到压缩的语音信号中时，恢复原始信号的整体时间结构，部分地恢复可理解性。

实验结果表明，语音包络的韵律结构不仅是声学信号的描述性特征，而且是促进理解的重要属性。

韵律性的运动—知觉相互作用

语音知觉和产出系统之间的相互作用是一个极具争议性和重大影响的问题，无论是从功能角度还是从结构角度都得到了实验证实。

在过去的几年里，不同的研究探索了知觉和产生脑区之间的相互作用(图3)。根据语音知觉运动理论修正版，实验表明被动聆听语音会激活涉及语音产出的大脑区域，发音区域的经颅磁刺激会干扰语音知觉。虽然这些发现并不表明运动激活的关键因果作用，但它们确实主张语音-运动系统起支持作用，例如通过在不利的听力条件下帮助语音感知。

图3.支持口语和感觉运动相互作用的大脑皮层结构。

a.构成双流模型的主要区域的示意图。红色和蓝色阴影分别代表背侧和腹侧流内的区域。红色和蓝色箭头分别代表背侧和腹侧白质连接。在许多功能中，额下回(IFG)与语音编码和显性语音产出过程中的时间组织有关。腹侧运动皮层(vM)的活动可能编码产生语音的上声道发音器的运动之间的协调。背侧运动前皮质(pM)执行与选择运动反应相关的功能，而外侧裂顶颞区(Spt)支持运动到听觉的映射。颞中前回(aMTG)可能参与句子层级智力的加工，颞中回后回(pMTG)可能参与词汇语义信息的获取。初级听觉皮层(Aud)参与声音加工的早期阶段。

b.单个被试对外侧裂周围腹侧(蓝色)和背侧(红色)通路的解剖，叠加在被试的大脑结构图像上。

感觉-运动相互作用也发生在另一个方向；也就是，语音产出系统调用知觉。在行为层面，反馈修正研究表明，持续发声的声学参数(如基音或元音共振峰)的实时扰动会引起自动的、无意识的行为补偿。与之相关的是，延迟的听觉反馈会导致语言不流畅并降低语速，这为在线互动提供了证据。在大脑层面，已有所谓的语音诱导抑制的报道：听觉区域对正在进行的自我产出的语音的反应小于对类似的外部产出的语音的反应。关于感觉运动相互作用的证据也来自对语音运动规划的研究，这些研究暗示了在产出过程中的“传出副本”。这些实验建立在这样一个事实之上，即语言运动系统将预期目标的副本发送到感觉区域——体感和听觉——在那里评估计划的目标和执行的目标之间的一致性。

综上所述，实验证据一致地指出知觉系统和产出系统之间存在双向的相互作用。然而，其机制和因果关系仍然知之甚少。

如果您对脑影像及脑电数据处理感兴趣，欢迎浏览思影科技课程及服务（可添加微信号siyingyxf或18983979082详细了解）：

第三十六届磁共振脑影像基础班（南京，2021.1.6-11）

第十五届DTI数据处理班（南京，12.26-31）

第十三届脑影像机器学习班（南京，12.13-18）

第十一届磁共振脑影像结构班（南京，1.12-17)

第十九届磁共振脑网络班（南京，1.18-23)

第三十五届磁共振脑影像基础班（重庆，11.30-12.5）

第三十七届磁共振脑影像基础班（重庆，1.23-28）

第十四届DTI数据处理班（重庆，11.19-24）

第七届任务态fMRI专题班(重庆，1.14-19）

第一届MNE-Python脑电班（南京，12.7-12）

第七届脑电信号数据处理提高班（南京，11.18-23）

第十届脑电数据处理入门班（南京，12.1-6）

第二十三届脑电数据处理中级班（重庆，12.16-21）

第十一届脑电数据处理入门班（重庆，1.7-12）

第八届脑电信号数据处理提高班（重庆，1.30-2.4）

同步性有助于语音加工。

如前所述，听语音会引起颞叶听觉低频大脑活动对声学信号包络的准韵律结构的影响。这种夹带对于信号的正确分割和随后的解码是必须的。在这一结果的基础上，最近的实验探索了在加工可理解语音的过程中，颞叶皮质和其他大脑区域的韵律之间的相互作用是如何调节大脑对刺激的同步性的。

一项研究在被试听自然(可理解的)语音和逆向(不可理解的)语音时，评估了听觉皮质和其他大脑区域之间的连通性。他们的数据显示，左侧额叶下部(1~3Hz)和中央前回(4~8Hz)产生的振荡活动调节了左侧听觉区域低频活动的相位，在可理解的情况下比在无法理解的情况下明显更多。这种自上而下的控制可以更好地追踪听觉皮质中的语音包络。与这一发现一致的是，研究表明，在单词识别任务中，双侧运动区和辅助运动区正在进行的缓慢振荡的相位会调节反应时间。测试音节和词汇层级知觉的前馈和反馈加工程度的新实验揭示了额叶和颞叶区域之间相关低频范围内的相位—振幅和相位—相位耦合效应，这些区域可能是支持自下而上和自上而下在线感觉运动对准的基础(部分)。

患者数据还表明，颞区和额区之间韵律的相互作用提高了口语理解能力。研究额叶神经退行性变患者和健康被试在接受退化的语音样本(单词)并结合匹配或不匹配的文本线索时的大脑活动时发现，由于额叶语言区域的神经退化，在完整的颞叶皮质中产生的与预测相关的神经反应被延迟。此外，尽管在低于25Hz的频率下，两组患者的额颞部连通性都得到了增强，但在β波段(13-23Hz)的患者，额颞部的连通性更强。使用格兰杰因果关系分析，他们发现这种相互作用是自上而下的，这意味着额叶区域影响了β频段内的颞区，而5Hz的活动反映了自下而上的、颞叶到额叶的调制。与此相关的是，阅读障碍的左下额叶及其与听觉区域活动的同步性降低。

语言加工过程中的语音包络追踪也在整个大脑层面进行了研究。当被试听到有意义但不可预测的句子时，探索了大脑到包络的夹带作用。比较正确理解的试次和错误理解的试次发现，与相位时间尺度(这里是0.6-1.3Hz)一致的频段中的夹带作用不仅在颞叶皮质增强，在运动前皮质也增强。此外，这个低频段的相位与左侧运动区的β功率相耦合。由于相位结构在不同刺激下是一致的，作者假设运动前和运动皮质利用这种时间规律性产生自上而下的时间预测。

与这一假设一致的是，有人提出，预测的时间进程依赖于β节律和β-θ节律之间的功能性耦合：虽然感觉区域的δ-θ振荡主要受外部刺激的时间结构的影响，但这种影响可以通过与额叶区域产生的β频段活动的相互作用而自上而下地进行调节。

听觉区域和额叶脑区的时间动态之间的相互作用揭示了在不同频段中共存的自上而下和自下而上连接的复杂现象。尽管这些相互作用的确切作用尚不清楚，但现有的数据表明，运动活动在时域语音感知中的作用是增强语音加工的听觉时间预测。

语音产出：一种神经振荡观点。

最近，一项研究测量了语音运动皮层和听觉皮质之间的同步性，被试同时听着以不同速率呈现的等时音节序列，这些音节均匀分布在每秒2.5到6.5个音节的δ-θ范围内。基于MEG记录，他们发现区域之间的耦合仅限于较低的刺激率，并且在每秒4.5个音节的条件下显著增强(图4b)。这一结果提出了一种假设，即语音运动皮质有其偏好的韵律，它的行为就像一个神经振荡器，接受听觉活动作为输入(图4a)。振荡器是这样一种系统，它能够在自己的特征频率上产生振荡，并且只有当外部频率接近其特征频率时，才能显示出对韵律输入的夹带。为了评估这一建议，基于这样的模型对神经生理学数据进行了数值模拟。模拟数据再现了实验模式(图4b)，为模型提供了初步支持。值得注意的是，这样的模型与先前的研究一致，表明在静息态下，语音运动皮质的θ频带内的频率过度呈现。

图4a.语音产出系统被描述为耦合到感知系统的振荡器，而感知系统又跟随感知语音的包络。该模型的参数为感知-产出耦合强度k和产出系统振荡器的特征频率ω0，用灰色圆圈表示。

图4b.被动听有韵律的音节序列时，听觉和运动区之间的同步。

顶部：实验脑磁图测量示意图，大脑活动起源于听觉(蓝色)和运动区(红色)之间的同步性。

底部：绿色条表示实验模式，区域之间的同步仅限于较低的音节率，并以每秒4.5个音节的速度增强；紫色曲线是由所提出的模型生成的数值模拟得到的同步模式。星号代表从基线开始的显著增量。

考虑到相位域中的这种神经耦合，应该有可测试的行为效应。在这个层面上，经典的延迟听觉反馈和新的自发语音同步测试被用来研究感知—产出交互作用的时间方面。在一个延迟的听觉反馈实验中，被试戴着耳机对着麦克风讲话，而他们自己的讲话则会有时间延迟地回放。数百毫秒范围内的延迟降低了说话者的语音速率和/或产出流畅障碍。模拟延迟听觉反馈结果的一阶近似假设语音包络与语音运动皮质活动成正比。鉴于语音包络包含在听觉皮质中，由此得出听觉活动与语音运动输出成正比，具有给定的延迟T。有趣的是，人们可以证明，通过将这一近似应用于先前介绍的模型——由耦合到听觉活动的振荡器表征的语音运动皮质——获得的数值模拟再现了众所周知的音节时间延长(图4c)。因此，这类证据与将语音运动皮质概念化为振荡器是一致的。

图4c.重复延迟听觉反馈实验的数值模拟。

顶部：应用于模型的修改示意图，以再现延迟的听觉反馈条件。振荡器在时间t的活动以时间延迟T反馈。

底部：绿色菱形表示T的实验平均音节持续时间；紫色圆点是用改编版本的模型模拟的数据。

自发语音同步测试探索说话者产出的音节速率是如何被感知到的人自发调制的。在这项测试中，被试听一个有韵律的音节序列，以每秒4.5个音节的速度呈现，同时不断地低声呈现音节/ta/。重要的是，由于带着耳机他们自己发声的听觉反馈被屏蔽了，因此可以精确地控制听觉输入。测试的自发性质是源于这样一个事实：要求被试回忆目标音节时没有指令与外部音频输入同步。结果发现说话人和听话人群体根据语音—语音同步过程中的强烈个体差异被分成两组。一些被试自发地被迫将他们产出的音节率调整到感知到的音节率(高同步者)，而另一些被试则对外部韵律保持不动(低同步者；图4d)。对这两组被试进行神经学检查(使用MEG和fMRI)，可以看到被试类型之间明显的功能和结构差异。在神经生理功能方面，当被试被动地听等时音节流时，高同步者比低同步者左下额叶皮质的大脑—包络夹带作用显著更强。与之相关的是，高同步者在左侧背侧通路白质体积更大。此外，研究结果也是相关的：背侧通路容量越大的被试，其左侧额叶下部皮质对感知音节率的夹带作用越强。

最后，之前提到的简单模型可以用来预测语音—语音同步的双模分布。该模型(图4a)有两个基本参数：特征产生频率ω0和感知到产生耦合的强度k。当被试被动地听音节时，ω0对应于语音运动系统的自然频率，其值接近4.5Hz。然而，人们在说话时可以随意地说得更快或更慢。因此，作者假设，在显性语音产出过程中，这个值可以在一定范围内调节，大概是通过来自其他大脑区域的自上而下的信号来调节的。此外，作者假设k是一个结构变量，其大小与左背侧通路的体积成正比。根据这些假设，个体被试可以被建模为参数的组合(ω0，k)，其中ω0是预期的音节率，k取决于个体的大脑结构。根据该模型，当外部听觉刺激以频率fext呈现时，语音产出将仅在某些参数组合(ω0，k)的情况下与其同步。因此，同步区域内的参数(图4d底部阴影区域)将表示“高同步者”。相反，低同步者对应于阴影区域之外的参数集(ω0，k)，对于这些参数预测不到同步。

图4d.所提出的模型解释了自发语音同步测试的双模结果。

左侧：实验示意图；左侧为低位同步者，右侧为高位同步者。彩色线条显示声波的振幅变化，说明音节率。浅蓝色是感知音节；深蓝色和淡红色是产出音节。

右侧：参数空间中每个(ω0，k)定义一个被试。该模型预测，只有灰色阴影区域内的参数组合，产出才会与以听觉刺激fext的速率呈现的有节奏的输入同步。因此，深蓝色/浅红色圆点分别表示低/高同步者。

那么，如何扩展和测试该模型？一个重要的预测是，对于满足约束mω0 = nfext的预期音节速率(ω0)和外部音节速率(fext，听觉刺激的速率)的任何组合，都会发生同步，其中m和n是整数。因此，例如，如果被试被提示以3 Hz的频率产出，并且外部速率被设置为6 Hz(m=2和n=1)，则预期的结果是双模的，但是同步比率为2：1。高同步者每两个外部音频音节低声产出一个音节，而低同步者将不会在产出和感知的音节之间保持任何固定的比率。这个假设代表了一个自然的后续心理物理实验来进一步检验这个模型。

模型的局限性

首先，该模型缺乏空间精度。在描述听觉和语音产出系统在时域中的关系时，必须指出哪些大脑区域负责协调相互作用。在语音产出网络中，哪个脑区扮演着与听觉活动相耦合的振荡器的角色以及该脑区的动态如何传播到脑网络的其他部分尚不清楚。一方面，已有研究证明了语音的主要运动区与频率在一定范围内的听觉活动是同步的。另一方面，作者假设起振荡器作用的主要区域是额下回（IFG）。在语音运动区观察到的同步模式可能源于它们与IFG的紧密联系。现有的证据支持这一假设：IFG中的活动已被证明可以预测产出的语音包络。此外，听觉皮质通过弓状束与IFG直接相连。

第二，如前所述，在产出语音的过程中，可以随意调整自己的发音率。虽然作者假设振荡器的自然频率与产出的音节率相匹配，但这种频率调整需要一种机制来解释。进一步的研究应该探索IFG中的振荡活动是否受到来自其他大脑区域的自上而下信号的调节，并将这种相互作用包括在模型中。

最后，模型的一个过度简化是单向的感知—产出交互作用，因为有大量相反方向的证据。下一步将是包括双向听觉-运动交互以及重要的听觉活动动力学。一种可能性是，将听觉区域表示为耦合—语音包络的第二振荡器。

环境化的语音韵律

大脑区域内相互联系的抑制性和兴奋性神经元群体可以产生一个更大的神经计算“单位”，其行为就像一个振荡器。大脑节律在不同脑区和不同物种之间是一致的，这表明这种时间模式的出现是一种保留下来的神经结构的结果，而这种神经结构很可能是在时间域中执行基本计算子程序所必需的。鸟鸣是一种在文献中被广泛研究的动物模型，主要是因为这个系统和语音之间有相似之处。例如，鸟鸣由一系列高度定型的声音单位组成，而它们的指导者(成鸟为习得发声提供模板)在发育过程中起着至关重要的作用。不同的鸟类大脑核团可以被建模为一组耦合的神经振荡器，这一想法已经从理论上进行了理论分析，并在实验上进行了评估。

鉴于有理由假设支撑语音感知和产出的皮层基础设施源自神经生物学基础、无处不在且保存完好的机制，进化论推测引出了有趣的假说。

首先，音节起源于下颌的自然循环，而其本身就是由摄取相关的韵律演变而来的。这一假说的灵感来自于一系列行为学观察：

第一，本文第一部分描述的音节速率的稳定性；

第二，婴儿喋喋不休，频率为2-6 Hz，大概在这个早期发育阶段，由于语音运动控制系统尚未发育，嘴巴运动的自然韵律暴露出来；

第三，非人类灵长类动物的拍唇和口部姿势促进了社会互动，这可能是语音的前驱之一，涉及以一定速度发生的周期性嘴巴运动。根据框架/内容理论和这些行为观察，作者描述了一个合理的生物物理模型，用于描述言语产生脑区的时间动力学，这意味着语音韵律的出现是潜在神经结构的结果。然而，根据其他人的观点，下颌的中心作用需要修正。有证据表明声道发音器运动之间的协调形成了语音韵律的基础，而不是单个发音器的运动学。

其次，跨感觉模态和物种的一个共同发现是，知觉依赖于运动系统来扫描外部单词，这种扫描或采样以准韵律的速度进行。典型的采样率在2-10Hz左右。文献中广泛报道了这种现象：嗅觉系统用鼻子嗅探 (昆虫的嗅觉系统使用周期性鼻子吸入和规律性天线扫描)；人类的体感系统依靠周期性的手指运动来确定表面的粗糙度；啮齿动物的周期性触须运动用于探索新环境或物体识别；灵长类动物对场景的视觉探索是由以受限速率发生的扫视眼球运动引导的。这些数据说明了有韵律的运动模式允许知觉系统在适当的时间粒度对环境进行采样，以便成功地感知、辨别、记忆编码等。听觉系统虽然有丰富的传出投射，却没有这样的运动系统来对世界进行采样。但是，在某个频率范围内的有韵律的声音信号的听觉感知被增强，而该频率恰好与语音产出系统所特有的范围相同。这种有韵律的排列不是巧合，而是一种在没有运动系统的情况下的变通办法，即以与其他感官系统相同的速率进行声音信号采样。以正确的时间粒度产出语音的运动系统为感知听觉系统预先提供了信息：没有必要对刺激施加任何采样，因为它已经携带了正确的时间模式。语音运动系统在其韵律性上消除了对听觉运动系统的需要。

最后，语音韵律与阅读使用之间存在着有趣的关系。具体地说，当在阅读不同拼写的真实文本期间测量眼动，眼跳时间与典型的音节速率很好地对齐，突出了知觉体验的时间结构基本上跨域重叠。研究还表明，语速和听觉—运动的同步性与阅读能力相关。这些数据共同表明，这里描述的韵律同步超出了口语的范畴。需要进一步的实验才能更彻底地理解阅读习得如何改变模型的性质。

总结：

综上所述，语音产出具有一个非常稳定的速率，这个速率被感知系统如实恢复，有助于成功地理解口语。为了在时域中描述语音的听觉—运动基础的机制，作者引入了一种简单的语音产出系统的生物物理描述，将其描述为耦合到感知系统的振荡器，该振荡器跟随感知的语音信号的包络。模型利用了语音感知—产出交互作用的时间动力学的基本特征。语音的韵律结构会被知觉系统恢复，并对口语理解起着至关重要的作用。

如需原文请添加思影科技微信：siyingyxf 或者18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。觉得对您的研究有帮助，请给个转发，以及右下角点击一下在看，是对思影科技莫大的支持。