帕金森病(Parkinson’s disease, PD)是世界上第二大流行的神经退行性疾病,全球影响着超过1000万人,仅次于阿尔茨海默症。人们通常在65岁左右被诊断出患有此病。PD的一些症状包括震颤、肌肉僵硬和运动迟缓。这些症状往往出现在较晚的阶段,使得仅基于这些症状的早期诊断变得困难。PD可以影响语音产生的各个方面,包括发音、声音的音调和响度、韵律以及声音的质量,导致语音障碍特征表现为声音嘶哑(dysphonia)和言语障碍(dysarthria)。声音嘶哑意味着产生声音的能力降低,而言语障碍指的是产生单词的困难。这些语音障碍可能在其他症状出现前长达五年就已发生,表明早期PD诊断实际上是可能的。
在前面已经有2篇文章针对帕金森病(PD)诊断进行了阐述,有兴趣的朋友可以直接翻阅以下链接:
首次使用回声状态网络 (ESN) 和语音特征进行帕金森病 (PD) 预测
PPINtonus (深度学习音调分析)帕金森病早期检测系统
本文研究分析了三种基于语音的深度学习方法(端到端学习 (E2E) 、迁移学习 (Transfer Learning, TL) 、深度声学特征 (Deep Acoustic Features, DAF)),讲述各学习方法的性能、挑战及应用情况。
1 端到端学习(E2E)
在E2E方法中,原始语音信号可以直接映射到最终输出,与传统的基于高斯混合模型(GMMs)和隐马尔可夫模型(HMMs)的语音识别流程不同。在传统方法中,必须提取手工设计的特征(如梅尔频率倒谱系数MFCCs),然后使用语言模型将这些特征映射到文本符号,最后进行分类。E2E方法避免了手动特征提取,允许模型学习从输入到输出的直接映射。
1.1 E2E 学习的优势
- 自动特征提取:E2E 学习可以自动从语音信号中提取具有区分性的特征,无需手动设计特征工程,节省了时间和精力。
- 减少错误累积:E2E 学习避免了手动特征提取过程中可能出现的错误,例如特征选择不当或特征提取方法不适用等,从而提高了分类的准确率。
- 模型优化:E2E 学习可以端到端地优化模型参数,使得模型能够更好地学习数据中的规律,并提高分类性能。
1.2 E2E 学习的挑战
- 数据需求量大:E2E 学习需要大量的训练数据来训练模型,而 PD 语音数据集相对较小,这限制了模型的训练效果和泛化能力。
- 模型复杂度高:E2E 模型通常比较复杂,需要大量的计算资源进行训练和推理,这增加了模型的部署难度。
- 可解释性差:E2E 模型的决策过程难以解释,难以理解模型是如何进行分类的,这限制了模型的实际应用。
1.3 E2E 学习在 PD 语音分类中的应用
- CNN 架构:卷积神经网络 (CNN) 是 E2E 学习中最常用的模型架构之一,它可以有效地学习语音信号中的局部特征,例如声谱图中的频谱特征。
- LSTM 架构:长短期记忆网络 (LSTM) 可以有效地学习语音信号中的长期依赖关系,例如音节的时序特征。
- Transformer 架构:Transformer 架构在自然语言处理领域取得了突破性的成果,近年来也被应用于语音信号处理领域,并展现出强大的潜力。
2 迁移学习 (Transfer Learning, TL)
TL方法通过利用在一个大型数据库上预训练的深度神经网络(DNN),然后将这些网络应用到另一个通常数据量较小的任务上。这种方法可以解决数据可用性问题,因为它允许模型利用在源领域学到的知识来提高在目标领域的性能。特别是跨语言的TL方法,已被证明可以增强诊断系统的稳健性,并在不同语言之间提高适用性。
2.1 迁移学习的优势
- 解决数据稀缺问题:PD 语音数据集通常规模较小,难以训练大型深度学习模型。
- TL 允许我们利用在其他大规模语音数据集(如 ImageNet)上预训练的模型,并将其迁移到 PD 语音数据集上进行微调。这样可以显著减少对大量标注数据的依赖,并提高模型的泛化能力。
- 跨语言应用:不同语言之间存在差异,例如发音、语调等。TL 可以帮助我们将在一个语言上训练好的模型迁移到另一个语言上,从而实现跨语言 PD 分类。
- 这对于开发通用的 PD 诊断系统具有重要意义,可以方便不同语言人群使用。
- 提高模型性能:通过迁移学习,模型可以学习到更通用的特征,从而提高在目标语言或任务上的性能。一些研究表明,使用 TL 的模型在 PD 分类任务中取得了比仅使用目标语言数据训练的模型更好的性能。
2.2 迁移学习的挑战
- 如何选择合适的基础模型和微调策略。
- 如何处理不同语言之间的差异。
- 如何评估 TL 模型的性能。
3 深度声学特征 (Deep Acoustic Features, DAF)
DAF方法旨在通过使用深度学习模型从音频信号中自动提取特征,来提高结果的可解释性和解释性。这些特征可以在深度学习模型的最后层中使用,也可以用作更传统机器学习方法的输入。尽管DAF方法可能在性能上不如E2E和TL方法,但它们通过检查深度特征对PD分类的影响,提供了对模型决策过程的更多洞察。
3.1 DAF 的提取方式
- 从端到端 (E2E) 模型中学习: 将原始语音信号输入 E2E 模型,例如卷积神经网络 (CNN) 或 Transformer,模型会自动学习并提取特征,并在最终层进行分类。
- 使用预训练模型: 使用已经在大规模数据集上预训练的模型,例如 Wav2Vec2.0、VGGish 或 SoundNet,生成 DAF。
- 使用自编码器: 使用自编码器学习并提取音频信号的低维表示,作为 DAF。
3.2 DAF 的优势
- 无需手动特征工程: DAF 的提取过程完全自动化,无需手动设计特征,节省了时间和精力。
- 更鲁棒: DAF 能够更好地捕捉音频信号中的细微变化,对噪声和说话人差异更鲁棒。
- 更抽象: DAF 能够捕捉到更高层次的特征,例如说话人的语音风格、语调等,这些特征对 PD 诊断更有价值。
3.3 DAF 的挑战
- 解释性差: 由于 DAF 是自动学习的,其背后的原理和特征含义难以解释,这限制了 DAF 在临床应用中的推广。
- 性能不如 E2E 和 TL: 目前 DAF 的性能通常不如 E2E 和迁移学习 (TL) 方法,这可能是因为 DAF 缺乏对特定任务的针对性。
4 实际应用情况
- E2E 学习: CNN 架构通常可以达到 90% 以上的准确率,Transformer 架构也展现出与 CNN 相当的性能。
- TL: TL 方法通常可以达到 60% 到 90% 的准确率,跨语言 TL 可以进一步提高准确率。
- DAF: DAF 方法可以达到 87% 以上的准确率,并且比传统特征(如 MFCC)表现更好。
5 数据集
数据集名称(年份) | 来源 #参与者 | 语言 | 总语音时长 | 数据质量 | 语音任务 | 备注 |
Saarbruecken Voice Database (2006) | 1002参与者 | 德语 | ±300分钟 | 麦克风录音 | 1. 正常、高和低音的元音(i, a, u)。2. 音高变化的元音(i, a, u)。3. "Guten Morgen, wie geht es Ihnen?"句子。 | 851名健康对照组(HC),平均年龄9-84岁。 |
PC-GITA (2014) | 100 | 西班牙语 | ±900分钟 | 麦克风录音 | 1. 持续元音。2. 快速重复单词和音节(DDK)。3. 单词和句子的重复。4. 对话阅读。5. 强调特定单词的句子阅读。 | 50名PD患者,平均年龄33-77岁。 |
Parkinson Speech Dataset with Multiple Types of Recordings (2014) | 68 (40训练,28测试) | 土耳其语 | 未提供 | 麦克风录音 | 1. 持续元音(/a/, /o/, /u/)。2. 数字(1到10)。3. 单词。4. 短句。 | 20名PD患者,平均年龄43-79岁。 |
Italian Parkinson’s Voice and Speech (2017) | 65 | 意大利语 | ±116分钟 | 麦克风录音 | 1. 阅读语音平衡文本。2. 发音/pa/和/ta/音节。3. 元音/a/, /e/, /i/, /o/和/u/的音调。4. 阅读语音平衡单词。5. 阅读语音平衡句子。 | 28名PD患者,平均年龄40-89岁。 |
Parkinson’s Disease Classification (2018) | 252 | 土耳其语 | 未提供 | 麦克风录音 | 持续元音/a/。 | 188名PD患者,平均年龄33-87岁。 |
Synthetic Vowels of Speakers with Parkinson’s Disease and Parkinsonism (2019) | 83 | 捷克语 | ±385分钟 | 麦克风录音 | 持续元音/a/和/i/。 | 22名PD患者,21名多系统萎缩(MSA)患者,18名进行性核上性麻痹(PSP)患者,22名健康对照组。 |
NeuroVoz (2024) | 108 | 西班牙语 | ±106分钟 | 麦克风录音 | 1. 持续元音3秒。2. DDK 10秒。3. 听后重复的语句。4. 自由独白30秒。 | 53名PD患者,平均年龄71.13岁。55名健康对照组,平均年龄64.04岁。 |