这篇文章介绍了AS-70数据集,这是首个公开可用的普通话口吃语音数据集,也是该类别中最大的数据集。AS-70数据集包含对话和语音命令阅读语音,并带有逐字逐句的手动转录,适用于各种语音相关任务。文章详细描述了数据集的收集、注释过程,并进行了描述性分析,将其与其他公开可用的口吃语音数据集进行了比较。此外,文章还建立了基线系统,并展示了ASR(自动语音识别)和SED(口吃事件检测)任务的实验结果。通过将AS-70数据集引入模型微调,显著改进了最先进的ASR模型(如Whisper和HuBERT)在处理口吃语音方面的性能,增强了其对处理口吃语音的包容性。文章还展示了SED任务的实验结果,表明通过使用AS-70数据集,SED模型的性能也得到了显著提升。最终,文章希望AS-70数据集能够帮助检测口吃,并协助口吃者开发语音交互系统。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里,如下所示:
摘要
过去二十年中,语音技术的快速发展使得自动语音识别(ASR)等任务在流利语音方面达到了人类水平的性能。然而,当这些模型应用于非典型语音(如口吃)时,其有效性显著下降。本文介绍了AS-70,这是首个公开可用的普通话口吃语音数据集,也是该类别中最大的数据集。AS-70涵盖了对话和语音命令阅读语音,并包含逐字逐句的手动转录,适用于各种语音相关任务。此外,本文还建立了基线系统,并展示了ASR和口吃事件检测(SED)任务的实验结果。通过将该数据集引入模型微调,观察到最先进的ASR模型(如Whisper和HuBERT)在处理口吃语音方面取得了显著改进,增强了其对处理口吃语音的包容性。
关键词
普通话口吃语音数据集,语音识别,口吃事件检测
1 引言
口吃是一种影响全球约1%人口的言语障碍[1]。口吃对有此问题的人的影响可能体现在社会功能和心理方面。口吃会阻碍日常口头交流,表现为语音重复、延长、阻塞和次要行为,如身体运动和面部表情[2]。
早期口吃的儿童(CWS)在发病后四年内有大约80%的机会恢复[3]。早期干预由语言病理学家(SLP)进行,对于提高恢复率至关重要[4]。与北美或西欧国家相比,这些国家的SLP实践已经发展了相当长的时间,而中国大陆的相关实践仍处于起步阶段。由于专业人员的缺乏,许多口吃儿童的家庭无法及时获得诊断。除了增加专业人员外,自动口吃诊断也可以满足一些家庭的需求。
当一个人的口吃持续到成年时,完全恢复的机会变得非常低,口吃很可能会伴随他们一生[5]。为了减轻他们的沟通障碍,或者从广义上讲,消除社会歧视,需要设计相关产品以满足他们的需求。
随着智能家居设备和聊天机器人技术(如Alexa和ChatGPT)的兴起,语音用户界面已成为我们生活中不可或缺的工具。尽管当前的ASR系统能够很好地处理流利语音[6],但它们在识别口吃语音时遇到了困难[7, 8]。这一挑战的潜在原因可能涉及多种因素,包括数据不足或缺乏对开发针对口吃者(PWS)系统的必要性的认识。
相关工作
由于数据的敏感性和个人性质,公司收集的大规模口吃语音数据集通常不会公开提供给研究社区[7, 9, 10, 8, 11]。另一方面,学术研究人员策划的公开可用数据集,如FluencyBank[12]和UCLASS[13],通常规模较小,主要用于SLP资源。虽然有更大的开放数据集,但可能在注释和真实性方面需要进一步完善。例如,Sep-28k数据集[14]包含28k个3秒的播客音频片段,仅提供SED任务的口吃标签,但缺乏伴随的文本转录。同时,LibriStutter数据集[15]包含文本转录,但它是从流利语音录音中人工生成的。此外,值得注意的是,所有这些开放的口吃语音数据集仅限于两种西方语言[16]。
大多数关于口吃语音ASR研究的主要重点是预测语义而非逐字逐句的转录。Lei等人[7]通过修改ASR解码器,特别是通过增加语言模型权重并施加更高的单词插入惩罚,观察到性能的提升。Shonibare等人[8]引入了一个帧级口吃分类器,称为Detect-and-Pass,设计用于RNNT ASR模型。Zhang等人[11]通过使用合成的口吃语音微调ASR模型,展示了性能的提升。Alharbi等人[17]利用ASR生成包含口吃单词的正字法转录。
SED涉及识别语音音频片段中的口吃实例。该领域的研究主要集中在四个公开可用的数据集上:Sep-28k[14]、FluencyBank[12]、LibriStutter[15]和KSoF[16]。不同的神经网络架构,包括ConvLSTM[14]、Stutternet[18]和SE-Resnet[15],被专门开发用于此任务。此外,机器学习技术如多任务学习[14, 19]被用于提高口吃检测的准确性。
本文的后续部分展示了我们的主要贡献——AS-70数据集,该数据集可从以下下载位置获取1。在第2节中,我们详细介绍了数据收集、注释过程,并进行了描述性分析,将AS-70与其他公开可用的口吃语音数据集进行了比较。在第3节中,我们使用AS-70数据集为ASR和SED任务建立了基线系统。
2 数据集
参与者与录音会话
AS-70数据集于2023年1月至2023年10月期间由两位作者(均为口吃成年人和普通话母语者)录制。共有70位普通话母语的口吃成年人参与了录音会话,其中24位为女性,男女比例为1.9:1。没有性别选择过程,所有愿意的候选人都被接受参与录音会话。
每位参与者参与的录音会话持续时间长达一小时,分为两部分:对话和语音命令阅读。对话通过Zoom或腾讯会议等在线平台进行,旨在捕捉不同话题的自发言语。采访者(两位作者之一)根据准备好的问题列表提出问题,并根据需要灵活引入即兴问题。
在语音命令阅读部分,参与者被要求阅读一组200条命令,分为车载导航和智能家居设备交互。为了确保多样性,每25位参与者引入一组新的200条命令,最终数据集包含总共600条独特的命令。参与者被鼓励使用自愿口吃技术,故意引入口吃。
注释
数据集注释过程涉及15位非口吃者(非PWS)注释员和5位质量控制员(QCs)。在5位QCs中,4位是非PWS,1位是PWS作者(QC0)。所有注释员和QCs都是经验丰富的普通话语音注释员,其中一些人有注释非典型语音的经验。为了确保注释质量,QC0在注释过程开始前进行了培训。在培训中,19位非PWS注释员和QCs首先被要求注释一些口吃语音的示例。随后,QC0提供了反馈,并要求19位注释员根据反馈注释新的示例。这一迭代过程重复多次,直到不再需要进一步反馈。
注释指南中指定了五种类型的口吃:
-
[**]:单词/短语重复。用于标记整个重复的字符或短语。
-
/**/:阻塞。喘气或口吃停顿。
-
/**/:延长。拉长的音素。
-
/**/:声音重复。不构成整个字符的重复音素。
-
/**/:插入语。由于口吃而产生的填充字符,如“嗨”、“嗒”或“呢”。值得注意的是,自然发生的、不中断语音流的插入语被排除在外。
注释以逐字逐句的方式进行,口吃标签嵌入为标记。注释转录的一个示例是“嗶//p. 我!我!我的!名//字是小//胡”。字符“嗶”是一个插入语,也被延长。字符“我”重复了两次。字符“名”应用了阻塞注释。此外,字符“小”的一个音素被识别为声音重复。值得注意的是,单个字符可能带有多个标签。音频和注释的更多示例可通过以下链接获取2。
对话和命令阅读部分的每个会话由不同的注释员分别注释。随后,4位非PWS QCs之一对注释进行了交叉检查。为了确保注释一致性,QC0对所有会话注释进行了最终交叉检查。注释员指出,这一注释过程比注释流利语音所需的时间大约多三倍。
转录中删除了个人身份信息(PII),如姓名、地址、出生日期和职业。包含PII的音频片段已被静音。数据收集者与参与者签署了数据收集协议,遵守《个人信息安全影响评估指南》[20]。
描述性分析
表1展示了AS-70与其他4个开放数据集在数据规模上的比较。AS-70数据集从70个录音会话中包含了总共48.8小时的语音数据。排除两位采访者,每位参与者平均贡献了457个话语和33.0分钟的语音,其中对话部分平均为141个话语和17.8分钟,语音命令阅读部分平均为316个话语和15.23分钟。
表1表明,AS-70数据集在时长和参与者数量上均是开放数据集中最大的。与之前最大的开放数据集Sep-28k[14]相比,后者以3秒片段级别注释且无转录,AS-70数据集是其两倍大,以字符级别注释并包含逐字逐句的转录。此外,AS-70数据集涵盖了自发言语对话和语音命令阅读任务,并且是唯一一个非西方语言的开放数据集。
表2展示了四个数据集中口吃事件的分布。平均口吃率通过将口吃事件总数除以语音时长计算得出。事件类型分布通过公式“某种口吃事件类型的标签数量/所有口吃事件标签的总数”计算得出。需要注意的是,直接比较Sep-28k和AS-70可能不完全公平。这是因为AS-70数据集以字符级别注释,提供了比Sep-28k片段级别注释更细的粒度。这种差异可能部分解释了AS-70对话部分比Sep-28k观察到的更高平均口吃率。
此外,AS-70数据集中单词和短语重复的比例显著增加,而声音重复的比例减少,这表明汉语口吃与英语口吃在语音学上可能存在差异。同时,我们注意到Sep-28k数据集中的插入语几乎是AS-70对话部分的两倍,这可能是由于这两个数据集中插入语的定义不同。Sep-28k将任何填充词,如“um”、“uh”和“you know”视为口吃插入语,而我们的注释排除了自然融入语音流的插入语。
根据之前的研究[14, 16],我们将AS-70数据集的话语分割为短片段用于SED任务。表3提供了AS-70数据集与其他三个数据集的比较。值得注意的是,AS-70数据集包含比Sep-28k数据集多49%的片段。
为了计算事件类型分布,我们采用了与文献[14]一致的公式:“包含某种口吃事件类型的片段数量/总片段数量”。一个有趣的观察是,AS-70的对话部分几乎比Sep-28k多4倍的单词/短语重复和2.2倍的延长。作为相对简单的任务,命令阅读任务反映为高无口吃率、低插入语和阻塞率。
3 实验
本节工作的目标不是达到最先进的性能,而是通过评估AS-70数据集,突出特定预训练模型的局限性。此外,我们旨在展示通过将我们的数据集整合到模型训练过程中可实现的改进。
数据划分
正如Bayerl等人[21]的研究所示,数据划分方法会严重影响实验结果的可靠性。忽略说话者独占性的数据划分可能导致模型学习说话者特定的特征,从而产生过于乐观的结果。我们确保不同口吃严重程度的说话者分布在每个划分中。
说话者的口吃严重程度通过口吃率(SR)衡量,计算方法是将口吃事件数量除以转录中非口吃字符的数量。例如,注释“嗶//p. 我!我!我的!名//字是小//胡”将导致口吃率为71.42%,因为有5个口吃事件和7个非口吃字符。口吃严重程度分类为轻度:SR<=7%,适用于45位参与者;中度:7%<SR<=12%,适用于16位参与者;重度:SR>12%,适用于9位参与者。训练/开发/测试划分的说话者数量可在链接2中找到。两位PWS采访者的数据包含在训练划分中。
ASR
我们使用AS-70数据集对ASR性能进行了深入评估,重点研究了三种不同的模型:Conformer[22]、HuBERT[23]和Whisper[6]。这些模型代表了ASR的全面方法,包括监督端到端ASR、自监督预训练和大规模半监督方法。为了强调语义转录,注释经过预处理,排除了口吃事件标签、口吃字符和标点符号。
Conformer。 该系统基于Wenet[24]。U2++是一个统一的双向注意力解码器框架,通过右到左注意力解码器包含未来的上下文信息,以提高共享编码器的表示能力和重评分阶段的性能。我们展示了使用WenetSpeech数据集[25]预训练的u2++ Conformer模型的结果,以及使用AS-70训练划分微调的模型的结果。
HuBERT。 HuBERT通过自监督学习在ASR中展示了显著的效能。我们采用中文HuBERT Large模型作为预训练实验系统[26]。我们使用AISHELL-1[27]微调的结果作为基线,与使用AS-70数据集微调的模型进行比较。
Whisper。 Whisper在多种语言中表现出卓越的性能,通过大规模半监督训练开发。我们的基线采用Whisper large-v2模型进行直接推理。后续工作集中在使用AS-70数据集微调Whisper模型。
结果与讨论。 表4显示了上述模型在AS-70测试集上的字符错误率(CER)结果。这些结果传达了一个明确的信息:尽管上述模型在通用数据上表现出色,但它们在处理口吃数据时似乎表现不佳。然而,在使用AS-70数据进行微调后,所有模型都表现出显著的改进。使用AS-70微调的Conformer领先,可能是由于Conformer预训练阶段有大量的标注数据。另一方面,Whisper在重度数据上表现不佳。经过检查,我们注意到Whisper在解码重度PWS的话语时倾向于生成过多的重复标签。
这些实验的一个有趣发现是,AS-70微调模型处理的命令数据的CER相对较低,这可能是由于训练集中包含与测试集中相同的命令文本,只是说话者不同。我们计划在未来的工作中通过考虑命令文本因素来解决这一限制。ASR结果的示例可在链接2中找到。
SED
SED的评估通过建立基于随机猜测的基本基准来进行,从而为后续分析提供比较基线。我们采用了一些知名的SED方法,如StutterNet[18]、ConvLSTM[14]、Conformer和wav2vec2.0[28],以评估这些方法的有效性。
StutterNet。 StutterNet[18]使用适合捕捉不流畅话语上下文的时间延迟神经网络,该网络在MFCC输入特征上进行训练。我们使用12.2M参数重现了StutterNet[18]的结构。我们使用多任务学习,有两个输出分支:流利/不流畅预测和每个五种事件类型的软预测。
ConvLSTM。 ConvLSTM[14]的输入是一组40维的梅尔滤波器能量特征。卷积层的特征图在批量归一化后结合,并输入到三个LSTM层,最终得到1.6M参数的模型。我们使用与StutterNet相同的多任务学习。
Conformer。 与第3.2节中提到的相同的Wenet Conformer[22]编码器架构被应用。然而,由于训练数据量较小,我们使用了3个Conformer块,最终得到9.7M参数的模型。我们使用单任务学习,即预测五种事件类型。模型训练使用多标签软边际损失。
Wav2Vec2.0。 参考Bayerl等人的方法[28],我们微调了wav2vec2.0 base模型。我们最初实验使用的模型(Chinese-wav2vec2-base)[29]在WenetSpeech语料库上以无监督方式预训练。我们使用与Conformer相同的单任务学习。
结果。 表5显示了上述模型在五种口吃事件类型上的F1分数。所有模型在每种事件类型上都超过了随机猜测基线。ConvLSTM表现较差,这归因于其有限的1.6M参数。StutterNet和Conformer显示出中等结果,而wav2vec2.0表现最为出色,显著受益于其在大数据集上的预训练。值得注意的是,阻塞(lb)的表现明显差于其他口吃类型,这可能是因为阻塞通常仅由语音中的静音表示。类似的发现见于Lea等人[7]和Bayerl等人[21]。有关口吃严重程度和语音任务的详细SED结果,请参阅链接2。
4 结论
本文介绍了AS-70数据集,这是首个公开可用的普通话口吃语音数据集,也是该类别中最大的数据集。AS-70包含对话和语音命令阅读语音录音,并带有逐字逐句的手动转录,适用于各种语音相关任务。此外,本文还建立了基线系统,并展示了ASR和SED任务的实验结果,通过将该数据集引入模型微调过程,显著改进了最先进的ASR模型。我们希望AS-70能够帮助检测口吃,并协助口吃者开发语音交互系统。