语音神经科学—07.The DIVA model: A neural theory of speech acquisition and production-CSDN博客

本文链接：https://blog.csdn.net/m0_51474171/article/details/137016178

本文详细阐述了DIVA模型，一个描述语音产生中感觉运动交互的自适应神经网络，涉及大脑多个区域。模型包括前馈和反馈控制系统，解释了语音产生过程和如何处理通信障碍。文章介绍了模型的关键组件、其在语音处理中的应用以及学习过程，特别是模仿阶段的权重调整和反馈矫正机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

The DIVA model: A neural theory of speech acquisition and production

专业术语

太多了先不总结了

概述

本文主要概述了最新的 DIVA 模型，该模型在添加了一个位于腹侧前运动皮层（ventral premotor cortex,）的右侧反馈控制映射（right-lateralized feedback control map），作者将会根据现大量的实验证据来讲述 DIVA 模型的各个组件，以及他们之间的相互关系。关于该模型在研究和治疗沟通障碍（communication disorders）的应用也会被讲到，最后会对模型的学习过程进行概述。

关于DIVA的一些基本概述

DIVA模型是什么？

DIVA 是一个自适应神经网络，描述了语音产生过程中涉及到口型器官控制（articulator control）的感觉运动（sensorimotor interactions）相互作用。该模型已被用于指导多项与语音处理相关的行为和功能成像研究。DIVA模型的应用涵盖了行为学和功能成像等多个研究领域。在行为学研究中，DIVA模型被用于解释和预测语音产生过程中的运动控制策略和异常。它可以帮助理解正常人类语音产生的机制，并研究语音障碍的产生原因和治疗方法。此外，DIVA模型还被应用于功能成像研究，通过与人类大脑的活动进行对比，揭示了语音处理的神经基础和相关的脑区。通过将DIVA模型的预测与实际的神经成像数据进行比较，研究人员可以验证模型的准确性，并进一步探索语音产生和处理的神经机制。

DIVA模型涉及到的大脑区域以及作用

DIVA模型的语音产生包括参与语音产生和控制的多个大脑区域。这些区域包括：

双侧前额叶皮质（Bilateral prefrontal cortex）：前额叶皮质包括中央和侧面区域，它们参与语音产生的规划和执行。中央前额叶皮质（central prefrontal cortex ）与语音编码和声音产生有关，而侧面前额叶皮质（lateral prefrontal cortex）则与运动计划和执行相关。
顶叶皮质（parietal cortex）：顶叶皮质在语音产生中发挥重要作用，特别是在语音感知和声音的语义处理方面。它与语音的感知、理解和语义表征有关。
上颞叶皮质（Superior temporal cortex）：上颞叶皮质在语音产生中也起到关键作用，特别是在语音感知和声音的语音特征处理方面。它与声音的分析、编码和产生相关。
丘脑（Thalamus）：丘脑是位于脑的中央位置的结构，它在语音产生中起到调节和传递信息的作用。它与运动控制、感知和意识等方面有关。
基底神经节（Basal ganglia）：基底神经节在语音产生中的运动控制和协调中起到重要作用。它与动作的选择、协调和调节有关。
小脑（Cerebellum）：小脑是一个位于脑幕下方的结构，它在语音产生中负责协调和调节运动的时序和精确性。它与语音产生的节奏和精细度有关。

DIVA模型图

下图 1 就是 DIVA 最新模型图，该示意图中有两个颜色区域，左边表示前馈控制系统（feedforward control system），右侧表示反馈控制系统（feedback control system）。在下面会介绍每一个部分的作用和相应的大脑区域以及连接关系。
在这里插入图片描述
下图是将上面不同 map可视化在大脑相应区域中。

在这里插入图片描述

feedforward control

语音产生首先激活的是位于左侧前运动皮层（left premotor）和相邻的前额叶（frontal）皮层的语音声音图（speech sound map），然后映射到在双侧腹侧运动皮层的前馈发音器速率图（feedforward articulator velocity map）。这些投射表示该语音声音的前馈运动命令（feedforward motor commands）集或发音姿势。

其中，说话者环境中遇到的每个经常出现的语音声音都由语音声音图中的唯一细胞表示。每个半球的前馈发音器速度图由八对对立细胞组成，编码上唇、下唇、下颌、舌头和喉部的运动速度。这些速度最终决定了八个发音器的位置。

一个激活的speech sound map cell 会发送一个time-varying 16-dimensional 的输入到 feedforward articulator velocity map，用来编码发音速度以产生一个可理解的语音声音。权重在一个模仿阶段（imitation stage）进行学习（后面会讲到该部分的学习过程）。

从语音声音图（speech sound map）中的一个细胞到前馈发音器速率图（feedforward articulator velocity map）的映射类似于Levelt及其同事对**“语音编码”（phonetic encoding）的概念化描述，也就是说，它将来自相邻的额叶皮层（frontal cortex）的音韵输入转化为产生该声音的前馈运动命令集**。

作者的假设是feedforward articulator velocity是从左半边大脑开始的，并且研究证明，左下额叶皮层(left inferior frontal cortex)的损伤比右半球相同区域的损伤更常与言语中断相关，因为前馈运动程序被中断。所以，证明了作者的猜想，语音声音地图起源于左侧的前运动皮层。

这种解释与语言障碍的研究和治疗有关，如获得性言语失用症（AOS）。与AOS相关的病变主要位于左半球（Duffy，2005），特别影响腹侧（ventral）BA 6和44（腹侧中央前回（ventral precentral gyrus）、后额下回（posterior inferior frontal gyrus）、额盖（frontal operculum））和下方的白色物质。我们的研究结果证实了AOS作为言语运动程序的使用和发展的中断的特征，并建议康复治疗侧重于恢复运动程序，例如，声音生产处理，或**改善反馈为基础的性能（feedback-based performance）**应予以强调。

feedback control

在前馈过程中，speech sound map 会映射到feedforward articulator velocity map，除此之外，在feedback control 中，speech sound map 会发送一个映射auditory and somatosensory target map，这些投影编码与活动语音声音地图单元相关联的时变感官期望或目标。auditory targets听觉目标图描述了所产生语言的第一、第二和第三共振峰（formants）的上限和下限。somatosensory targets 有一个 22 维向量组成，描述了所产生的声音的预期本体感受（proprioceptive）和触觉反馈（tactile feedback）。

在模型中，tauditory and somatosensory target maps 向 auditory and somatosensory error map 输入抑制信息。error maps 表示 target maps 的逆。

auditory target and error maps 位于沿着 后上颞回（posterior temporal gyrus） 的两个位置：a lateral one nearthe superior temporal sulcus, and a medial one at the junction of the temporal and parietal lobes，在言语感知和言语产生过程中都有反应。

somatosensory target and state maps 位于腹侧缘上回(ventral supramarginal gyrus), 这个区域用来整合运动指令和感觉反馈。

sensory error maps 也从位于 auditory and somatosensory cortex 的sensory state map接收兴奋性输入。auditory state map 位于Heschl’s gyrus and adjacent anterior planum temporale，这个位置和初级以及二级听觉皮层有联系。somatosensory state map 沿着 腹侧前中央回(ventral precentral gyrus)。这两个 state map 的映射依靠于当前感觉状态（current sensory state）的估计。所以在 error map 中，表示预期和当前语音声音产生的实际感觉状态的差异。

当我们发出语音时，我们的大脑会生成预期的感觉反馈(target maps)。这些预期的感觉反馈是基于我们发出的声音所产生的运动指令（来自前向speech sound map）。然而，我们同时也会接收到实际的感觉反馈(state maps)，即我们听到自己说话的声音。根据von Holst和Mittelstaedt以及Sperry的理论，大脑通过将预期的感觉反馈与实际感觉反馈相减，以"取消"自我产生的部分，从而区分出由外部刺激引起的感觉反馈和自我产生的感觉反馈。这种机制被称为"再确认原则"，它有助于我们区分自己产生的感觉反馈和外界刺激引起的感觉反馈。在语音产生中，语音声音图将预期的感觉反馈与实际感觉反馈相减，以产生感觉目标图的输入。这样做的目的是使我们的大脑能够更好地感知和调整我们的语音产生过程，从而实现更准确和流利的发音。

而上面的描述起始就是 error map 的功能，如果传入感觉反馈没有落在预期目标区间内，则错误信息会被发送到位于 右侧前额叶和右腹侧前运动皮层(right frontal/ventral premotor cortex)的 feedback control map

Q: 什么是传入感觉反馈？
A: 传入的感觉反馈指的是我们从外部环境或自身产生的动作中接收到的感觉信息。

然后 feedback control map 通过投射到 双侧运动皮层(bilateral motor cortex)的 articulator velocity map，将听觉和体感错误信号转换为纠正运动速度命令(corrective motor velocity command)。基于反馈的发音速度命令由articulator position map 的前馈速度命令整合和组成。

The model’s name, DIVA, is an acronym for this mapping from sensory directions into
velocities of articulators.

关于在紊乱的负反馈下的右侧激活的发现

最近的研究对比normal and perturbed auditory and somatosensory feedback conditions。在两项研究中，正常反馈条件下，在额下回后部的盖部（posterior inferior frontal gyrus par opercularis）、腹侧前运动区（ventral premotor）和腹侧初级运动皮层（ventral primary motor cortex）都观察到左侧活动 ；当听觉反馈紊乱，在 两侧 的后部上颞皮层（posterior superior temporal cortex）都观察到了活动。

在 Structural equation modeling揭示了从left posterior temporal cortex 到 right posterior temporal and ventral premotor cortex 的有效连接。证据表明在 feedback control 期间左侧的posterior temporal cortex到右侧的posterior temporal and ventral premotor cortex增加了有效连接。（图 3 中的线 b）
在这里插入图片描述
同时，其他对言语产生的成像研究，包括干扰的听觉反馈条件，已经证明了更多的右半球参与基于听觉反馈的言语控制。此外，当躯体感觉反馈受到干扰时，与听觉反馈干扰相关的腹侧运动前区活动右侧化增加。

关于听觉反馈的右侧化有助于口吃的研究，因为在研究中发现，口吃患者产生语言时，相对于正常说话者，中央前回和额下回区域（precentral and inferior frontal gyrus regions）的右半球激活增加。这说明口吃患者由于前馈命令（feedforward command）弱化且过多依赖听觉反馈控制（auditory feedback control）。所以，右半球 inferior frontal 激活是次要的的后果，最主要的问题在于前馈系统（feedforward system）的异常表现。差的前馈性能导致听觉错误，这反过来激活右侧化听觉反馈控制系统以试图纠正错误。所以治疗方案与向更正常的左侧 frontal 激活有关。

Articulator movement

前向反馈速度指令和基于反馈的错误纠正指令在 articulatior position maps（labeled M）被整合。M位于沿着 caudoventral precentral gyrus，这个位置是初级运动关于面部和声道的肌肉表示的。M 由 10 对拮抗细胞组成，这些细胞对应 Maeda 声道的参数，这些参数决定了lipprotrusion, upper and lower lip height, jaw height, tongue height, tongue shape, tongue bodyposition, tongue tip location, larynx height, and glottal opening and pressure.

前馈和反馈指令在整个运动指令中的权重取决于误差信号的大小。因为这决定了反馈控制贡献的大小。也就是说，误差大的时候，激发更多的反馈控制，那么反馈控制权重就更大。

最近的研究又表明额外的运动皮层细胞已被添加到代表喉内肌（intrinsic laryngeal muscle）的模型中。初始解刨映射中包括了该位置的运动喉表示，cells in ventrolateral precentral gyrus (labeled Larynx, Extrinsic in Table 1)represent larynx height, whereas cells in the dorsomedial orofacial region of precentral gyrus(labeled Larynx, Intrinsic in Figure 2) represent a weighted sum of parameters representingglottal opening and glottal pressure.

supplementary motor area(SMA) 与 lateral motor 和 premotor cortex 和 basal ganglia 紧密相连，有研究在 SMA 中发现了表示关于运动序列的 planning\performance 的高阶信息。微刺激人类 SMA 会导致发声，单词或音节重复和言语停止。基于这个发现，initiation map被添加到 DIVA 中，被假设位于 SMA。initiation map 得到释放的 articulator position commands 到 periphery。根据这个模型。在 speech sound map 中的每一个语音运动程序和 initiation map 中的一个细胞相关联。当相应的 initiation map 细胞变得活跃时，与之相关的程序的运动指令会被释放。

DIVA模型的学习

下图将不同的学习阶段设计到的过程加黑处理以方便理解。
在这里插入图片描述

babbling phase

在早期的咿呀学习阶段，婴儿通过发出伪随机（pseudo-random）的运动指令来探索他们的发音器官。这些运动指令可能包括唇部、舌头和喉部的运动。同时，他们通过听觉和体感反馈（auditory and somatosensory feedback）来感知他们的声音和发音器官的位置和姿势。

在这个过程中，婴儿的大脑通过将运动指令和感觉反馈进行配对来建立联系。这意味着当婴儿发出特定的运动指令时，他们会同时接收到相应的听觉和体感反馈。这种配对的运动和感觉信号被用来调整从感觉误差图（sensory error map）到反馈控制图（feedback control map）的突触投射。这个过程就好像在调谐大脑中的连接，使得感觉误差图中的突触投射能够将感觉误差输入转化为基于反馈的运动指令。

通过这种方式，婴儿能够逐渐学习和优化他们的发音，并调整他们的运动以获得更准确和流利的发音。这个过程是通过将运动指令与听觉和体感反馈相联系，并将感觉误差转化为基于反馈的运动指令来实现的。

Imitation phase

feedback control system
在 babbling 阶段，已经有了知觉到运动的映射学习，模型进入第二阶段，在模仿学习阶段，婴儿试图模仿他们从其他说话者那里听到的语音。为了实现这一目标，婴儿的大脑通过调整听觉语音目标（auditory target map）、体感目标（somatosensory target map）以及前馈控制（feedback control）系统中的投射来进行学习。

听觉语音目标是通过从语音声音图到听觉目标图的投射进行编码的。这些目标代表了特定语音的听觉特征。在模仿学习阶段，婴儿通过尝试模仿已学习的语音目标来调整这些听觉语音目标（auditory target map）。

==体感目标（somatosensory target map）==也参与到模仿学习中。体感目标是与特定语音相关的发音器官的位置和姿势。在模仿学习过程中，婴儿通过调整和调节发音器官的位置和姿势，以更好地模仿目标语音的发音方式。

feedforward control system
在模仿阶段，一旦听觉目标已经被学习到，前向指令也会被学习。由于从语音映射细胞到初级运动皮层发音速度和位置映射的调谐不良，产生语音的初始尝试导致大的感觉误差信号，并且产生严重依赖于反馈控制系统（feedback control system）。

基于反馈的矫正运动指令被添加到来自 speech sound map 映射到 feedforward articulator velocity细胞的权重，从而逐渐提高前馈运动指令的准确性。经过训练，前馈命令变得能够以最小的感觉误差驱动语音的产生。因此很少依赖于反馈控制系统。

ending
今天学会了加黄色标记 hhh，所以用的有点多：）
以上只是概述，全文描述了更多相关的实验和证据，如有理解错误，欢迎批评指正～