Nature子刊：生命的最初几个小时内可快速学习音位辨别—基于fNIRS研究

最新推荐文章于 2024-07-25 22:24:14 发布

悦影科技

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量414

点赞数

分类专栏：脑科学前沿研究/文献解读文章标签：学习语音识别人工智能

本文链接：https://blog.csdn.net/weixin_41880581/article/details/128385707

版权

脑科学前沿研究/文献解读专栏收录该内容

327 篇文章 238 订阅

订阅专栏

摘要

人类新生儿可以区分音素，但这种能力背后的神经机制尚不清楚。新生儿的大脑可以学会区分自然（前）元音和逆向（后）元音（在子宫中学习不到的）。利用功能近红外光谱，我们检测了出生5小时后随机接触前和后元音 (T1时间点）和在此之后2小时 (T2时间点）再次接触所发生的神经可塑性变化。实验组的新生儿接受了与T1和T2测试相同的刺激训练，与不接受训练的对照组相比，实验组婴儿在T1时前元音与后元音的血流动力学反应潜伏期更短，且在额下回区域差异最大，在T2神经活动差异增加，在颞叶上部和左侧顶叶下部最明显。由此得知，新生儿在出生后的最初几个小时内表现出对自然音素的超快速调整。

前言

人类新生儿具有显著的语言敏感性，在出生后数小时内能处理复杂的言语刺激。出生时，他们偏好各种非语言、复杂的声音，也更喜欢母亲的声音。我们理解新生儿语言能力的一个重要方面是音素辨别，如区分元音的能力和音节（例如，辅音－元音的组合）。鉴于音素是语音中最小的可辨别单位，音素辨别是支持未来语音知觉敏感性发展的基础。一般认为，新生儿在出生时可以区分大多数语言中的音位，然后在最初几个月“调整”母语中使用的特定音位类别。有趣的是，产前学习对元音感知的影响似乎独立于新生儿出生后与环境语言（即母语）的接触，因为没有发现参与者在出生后7小时和75小时间存在差异。虽然75 h出生后学习时间相对较短，但研究结果表明新生儿语音感知系统在出生时已经达到了一定程度的成熟。此外，也有研究表明短期 (<5小时）语音暴露可以影响出生后的音位感知。

虽然在婴儿早期的元音辨别已经被证明，但关于出生后立即与产后语音学习相关的神经机制和动力学知之甚少。本文使用功能近红外光谱 (fNIRS) 首先评估新生儿在出生后3 小时内的音素感知，然后测量出生后在接下来的7小时内暴露于自然（前）和逆向（后）元音所引起的神经可塑性变化。我们使用了自然产生的元音串，预测了与新生儿和婴儿的口语处理有关颞上 (ST) 和额下 (IF) 脑区的活跃性，同时还研究了测试会话之间的静息状态功能连接的变化，以探索所涉及的神经网络中关键区域之间的相互作用。考虑到实验组和主动控制组在T0与T1之间暴露于元音，我们预计这两组相对于被动对照组在T0与T1之间的元音状态功能连接都会增加。

图1实验程序示意图。fNIRS数据记录发病时（T0，基线）、5小时后 (T1) 和2小时后 (T2) 。训练包括连续接触向前和向后的刺激，测试过程包括随机呈现一组自然发音或向后播放的特定元音。在巩固期，新生儿处于休息，没有接受刺激。

方法

被试-70名健康的足月新生儿（38名男孩；胎龄：38-41周，mean=39.0±0.7weeks）出生后1-3小时内被随机分配到（mean=2.1±0.4h）的实验组（=25）、主动对照组（=25）和被动对照组（=25）。
刺激材料-由一名母语是汉语的成年妇女用北京方言记录的标准汉语6个母语元音及其变体（即/ɑː/，/ɔː/，/iː/，/u：/，/ə：/和/æ/），见表2。每个元音都记录为一个刺激，然后使用CoolEditPro2.1（合成音乐软件）将其编辑为1秒的持续时间（添加了一个短暂的沉默，使每个声音文件都有1s长）。一组与新生儿父母相同的语言背景的20名中国本科生（10名男性，平均年龄=21.4岁，s.d.=1.7），对实验中使用的刺激进行识别和韵律评分，也证实前向元音（M=98.3%，s.d.=10.6）的识别准确率远高于后向元音（M=73.2%，s.d.=33.2），韵律评分在所有两种元音中都很低。在实验组中，我们使用了12个自然发音的元音串，每个串包含6个连接的元音（即，/ɑː/，/ɔː/和/iː/重复两次）。非语音的声音包括相同的12个元音逆向播放。主动控制组在学习阶段使用的正向音由12个正向元音串组成，每个串包含6个连接的元音即，/u：/，/ə：/和/æ/重复两次。与实验组一样的情况是，主动对照组使用的反向声音是相同的12个元音。反向元音的呈现顺序总是与前元音的呈现顺序匹配。此外，在实验组和对照组的训练阶段之间，正向和反向刺激的频率范围和强度相匹配。
在这里插入图片描述

实验流程－新生儿出生后和母亲是分离的，听觉刺激通过一对放置在距离新生儿左右耳20厘米处的扬声器呈现，平均背景噪声强度水平为30 dB。当新生儿处于安静的警觉状态或自然睡眠状态时，进行NIRS记录。在记录期间哭超过2 min的新生儿被排除在分析之外，剩下22（11个男孩）、23（12个男孩）和21（10个男孩）数据集分别被纳入实验组、主动对照组和被动对照组。实验中，首先进行了8个min（T0）的基线记录，在此期间，随机呈现了正向试次（即12个正向元音弦，一个弦6个元音）和后向试次（即12个向后元音弦），一个试次持续时间为6秒，试次间隔在12-16s之间随机变化。基线测试后，训练阶段立即开始，在此期间，实验组的新生儿被呈现实验组正向和后向元音集，见图1。T1为第一次训练5小时之后，然后开始8min的测试，之后再是2h的睡眠时间段，为巩固时期，结果显示2h内新生儿睡眠时间>90%，各组间差异无统计学意义，然后再是T2时期的8min测试。被动对照组没有接受任何训练，但也按照与其他两组参与者相同的程序被放置在相同的测试室。

近红外数据预处理－原始数据使用NirSmart系统的连续波模式采集，由20个激光发射器（平均强度=2mW/波长）和16个对2个波长（760和850nm）敏感的光探测器组成。根据国际10/5系统设置为NIRS-EEG兼容的34厘米直径帽（EASYCAP）。源和探测器设置为平均距离2.3厘米形成52通道，数据以10Hz的采样率连续记录。数据预处理删除了包含大伪影的数据段（>设备输入的20%动态范围，在此步骤中删除了17.8±10.2%的数据）。自动检测后（峰到峰>6 s.d.）利用线性插值校正峰值“跳跃”，将光强度数据转换为光密度变化（ΔOD），然后0.01-0.2Hz滤波，然后将两种感兴趣波长的过滤ΔOD时间序列分别转化为含氧血红蛋白（Δ[HbO]）和脱氧血红蛋白（Δ[Hb]）的相对浓度变化。
不同条件下氧血红蛋白浓度的变化－由于婴儿特定脑区的血氧函数是随时间变化的，所以本研究并没有采用经典的血氧函数GLM模型，而是使用血红蛋白和脱氧血红蛋白波形（即平均幅值和潜伏期）来做简单测量。连续的Δ[HbO]和Δ[Hb]数据在刺激开始前2秒开始到结束前20秒后被epoch并基线校正。本研究关注的重点是Δ[HbO]，因为它最好地反映了神经激活。初步分析首先计算了每次试验中刺激开始后6-16秒的Δ[HbO]值的平均振幅。根据先前的文献，预计这个时间窗将包含与刺激相关的含氧血红蛋白浓度的最大变化。然后，在每次试验中自动检测到Δ[HbO]波形的峰值潜伏期。Δ[HbO]的平均振幅和峰值潜伏期采用线性混合效应回归建模，通过R包lme4进行单次试验的振幅或潜伏期分析，建立为三个中心化和编码的固定效应（刺激类型2被试组3测试阶段3）及其相互作用的函数模型。所有的预测因子都以均值为中心，所有的模型都包括最大的参与者和通道之间的随机效应结构，省略了随机效应相关性以促进收敛。大脑区域之间的静息状态连接统计方法为关联每个受试者3 min（1800个样本）的探测器之间的10Hz测量值，计算了每对fNIRS通道的时间序列之间的皮尔逊相关性，产生相关系数矩阵（r值）以估计自发的功能连通性。然后将r值转换为Fisher的z分数，以进行进一步的统计分析，然后拟合了用于振幅和延迟分析的线性混合效应回归的相同简化模型，即包括每个受试者和每一对通道的最大随机效应结构。确保回归分析的结果将反映变化相关的振幅和潜伏期效应，我们只包括涉及7个种子通道，即FDR校正后的成对相关（FDR阈值：0.15，通道7、10和45用于振幅分析，通道2、6、43和44用于潜伏期分析）。因此，我们计算了来自种子通道和所有其他通道的时间序列之间的336个皮尔逊相关性（7×51−（7×6）/2=336）。回归模型忽略了刺激类型及其相互作用的固定和随机效应，因为测试前阶段没有包括这两种类型的刺激，但作为结构考虑，在主动对照vs实验的对比中保留了刺激类型的交互作用。

NIRS通道的空间定位－使用Cz、Nz、Iz、AR（右耳上方）和AL（左耳上方）作为参考，将帽子放在参与者的头部。使用三维（3D）数字化仪将这5个通道的空间坐标匹配到新生儿头部模型中的位置，然后记录了分布在新生儿头部的20个源和16个探测器的位置。随后，对所有参与者的坐标取平均值。以参考位置为指导，将通道坐标投影到新生儿MNI皮层模型的皮层表面。然后，MNI的坐标被映射到新生儿自动解剖标记（AAL）脑图上。

结果
氧合血红蛋白浓度振幅分析

对刺激开始后6-16秒的每次试验的平均氧合血红蛋白浓度[HbO]振幅进行线性混合效应回归分析确定刺激类型，组间（主动控制和实验和第二阶段）和测量时间 (T1和T2）存在显著的三者交互作用，表明前和后元音条件下实验组与积极对照组相比，在训练巩固后评估比训练巩固前评估血氧浓度增加（β = 0.125 μmol−1, s.e.m.= 0.058, t(86.7) = 2.15, ~P = 0.034)。绘制三向交互作用的最佳线性无偏预测因子 (BLUPs) 表明最大差异分布在双侧颞上和边缘上 (SM) 区域，以及下顶叶 (IP) 区域分布最大，见图2和表 1 。

图2 HbO的平均振幅结果a，组对比（主动控制与实验）、刺激类型（正向与反向）和测试相位对比 (T1与T2)在[HbO]平均振幅上的三者交互作用的blup的β估计图。β值绘制在新生儿大脑模型 (37周）上。b，5个通道中观察到的响应于顺向和逆向元音的[HbO]值小提琴图。c，三组中[HbO]和[Hb]随时间变化的代表性例子，以及通道7中的测试环节设置在左侧ST区域。波形图描述了个体数据的平均浓度随时间的演变。
表1关键的三者交互作用（组间（2组对比）×刺激类型×阶段（2组对比))达到显著性的个体通道
在这里插入图片描述

含氧血红蛋白浓度峰值潜伏期分析
接下来我们使用采用10 Hz测量速率分析[HbO]随时间变化的峰值延迟。我们首先在每次实验中确定[HbO]max的潜伏期，然后将相同的线性混合效应回归模型拟合到我们之前拟合到平均振幅数据的潜伏期数据中，发现在刺激类型间，组间（主动控制vs实验）和测试时间对比（T0 vs平均值 (T1、T2）存在显著的三者交互作用，表明实验组比积极对照组在逆向元音刺激下训练后评估比训练前评估峰值潜伏期更长（β =−0.569 μmol l− 1 ,s.e.m.= 0 . 2 0 9 , t ( 9 5 . 0 ) = − 2 . 7 2 , ~P = 0 . 0 0 8 )，且在双侧额下区域的前部差异最大（图3和表2) 。

图3 | [HbO]峰值潜伏期分析结果
表2.关键的三方交互作用（组（对比2）×刺激类型×期（对比）1）在峰值上达到显著性的通道

功能连接性分析

进一步分析静息态的功能连接。关注于最相关的通道，分析（FDR）校正后的振幅和潜伏期随时间变化显著的7个种子通道（即2、6、7 、10、43、44和45，fdr 的q<0.15），然后将这些数据和所有其他数据之间的10 Hz测量值关联起来。每个受试者在接受刺激之前的3 min数据 (1800个样本），使用Fischer z-transformation将相关系数正态化。在训练过程中对实验和主动控制参与者进行暴露（注意：FDR校正的结果在很大程度上不受阈值的影响，关键的组间与时间的交互作用依旧显著）。图4显示了每一次评估时间上平均相关系数。为了评估这些功能连接强度的变化与学习相关，在T2处对幅值和潜伏期应用同一线性模型产生最大的估计。回归结果见表3，存在组间（被动控制组vs实验组与积极对照组的均值）和测量时间的交互作用，表示在接受听觉训练后实验组和积极控制组的功能连接增加，特别是在睡眠后 (β=0.217, s.e.m.=0.062, t(50.2)=3.48, ~P=0.001)。其他分析结果也主要源于交互作用。在336对通道中，有32对在校正的阈值下是显著的，涉及左侧IF附近的通道（通道2有9个配对，通道6有6个配对），左ST （通道7有11对，通道10有4对。右侧IF（通道43有2对，通道44有3对），和右ST区（通道 45有4对）。此外，左IF和左ST区通道间（比如通道6和通道7间），左侧IF和左侧IP区域间，以及左侧ST和右侧ST间存在多个连接。

图4 功能连接结果点表示通过根据每个新生儿通道位置，种子通道用白色圆圈和蓝色光晕突出显示。点是根据在整个相关矩阵（包括所有通道）中观察到的相应通道的平均z分数来着色的。线表示超过阈值0.413的通道对之间的相关z分数，这是在静止的实验组中观察到的最负相关的绝对值（见左下象限的方法和密度图）。
表3 通道对间相关系数的线性混合效应回归分析估计

讨论
利用分布在新生儿头皮fNIRS传感器，我们检测了由正向元音及其波形反转引起的血红蛋白浓度的振幅和潜伏期变化。线性混合效应回归显示，fNIRS平均振幅和峰值潜伏期的总体三向交互作用显著，表明实验参与者，与主动控制组相比，区分前向和后向元音更快，而且延时测试中效应更显著。考虑到实验和主动控制参与者在训练过程中都暴露于（不同的）元音，而主动控制参与者的这种变化现象，交互作用很可能反映了与特定元音获取相关的神经机制，而不是语音的一般经验。在比较巩固前和巩固后时，实验组在T2时对正向元音的平均[HbO]振幅增加，出现学习效应，对两侧放置在颞上区（ST, 通道7和45）和边缘上区域（通道19和37）以及左侧顶叶下区（通道25）上方的效应最大。对新生儿和婴儿的研究也表明ST在早期听觉语言理解中，例如与语音处理和情感韵律的处理有关。位于SM区域和角区上方的通道的效果最大，这两个区域分别在单词的语音加工和语义加工中起着关键作用。因此，左侧IP和SM区域约上方的fNIRS通道的激活表明了元音听力可能提示一个新生的新生儿模仿网络激活，该网络对晚年语言学习至关重要。在比较训练前和训练后时的峰值潜伏期也存在变化：与T1和T2时的后向元音对比，实验组在双侧额叶下区域（例如，通道6和44）对正向反应的峰值潜伏期缩短，新生儿和婴儿IF区的激活与语音辨别有关，是未来语言能力的预测因子。研究结果表明，区分前元音和后元音需要神经有效性的变化，从而伴随潜伏期的变化，这与成人功能磁共振成像中观察到的血氧水平依赖信号的时间过程的变化是一样的原理。
然而，在T0时，前后元音的对比似乎在所有组的参与者中差异一致，这表明新生儿在暴露前可能无法区分这两类刺激。但仅仅在暴露5小时后，我们就可以看到特定的差异出现了。此外，训练过程中产生的神经可塑性变化在T1和T2之间的休息睡眠2小时期间得到巩固，表明通过出生后就存在睡眠巩固知觉学习。
功能连接强度的分析结果得到T1后，与被动对照组相比，实验组和主动对照组的神经同步性均有所增加。虽然这种效应相当广泛，但IF和IP小叶之间的连接主要涉及了布罗卡区和韦尼克区（ST回和IP小叶）。在对比T2和T1阶段时也发现该连接增强更明显，这似乎也取决于初始暴露后的巩固，类似于对[HbO]振幅的影响。功能连接分析可能暗示了一个神经生理学上的感觉-运动循环神经网络，该网络在语言发展过程中将言语的感知表征与运动表征联系起来。感觉-运动回路倾向于对任何可以发音的声音做出反应，这也解释了为什么与后元音对比暴露于前元音会导致实验组和主动对照组的功能连接的增加。
婴儿在言语感知的发展中通过声音模仿建立感觉和运动区域之间的突触投射（即感觉运动学习），本研究通过振幅和潜伏期变化以及功能连接分析揭示了其相关的神经网络，直接证明这种神经连接在出生时就形成了。未来的研究需要研究这种神经网络(1)如何作为感觉运动学习的基础，以及(2)提供了一个感知细化或协调的早期发展途径。通过追踪与语音获取相关的神经动力学，我们可能能够更好地发现有神经发育障碍风险的新生儿。进一步的研究还需要了解神经专门化（例如，左侧化）是如何逐渐将一个原始的语音获取网络转化为一个后天完全可操作的语音感知和发生系统。
参考文献：Rapid learning of a phonemic discrimination in the first hours of life

悦影科技

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nature子刊：生命的最初几个小时内可快速学习音位辨别—基于fNIRS研究

摘要人类新生儿可以区分音素，但这种能力背后的神经机制尚不清楚。新生儿的大脑可以学会区分自然（前）元音和逆向（后）元音（在子宫中学习不到的）。利用功能近红外光谱，我们检测了出生5小时后随机接触前和后元音 (T1时间点）和在此之后2小时 (T2时间点）再次接触所发生的神经可塑性变化。实验组的新生儿接受了与T1和T2测试相同的刺激训练，与不接受训练的对照组相比，实验组婴儿在T1时前元音与后元音的血流动力学反应潜伏期更短，且在额下回区域差异最大，在T2神经活动差异增加，在颞叶上部和左侧顶叶下部最明显。由此得知，新
复制链接

扫一扫

专栏目录