Losses Can Be Blessings: Routing Self-Supervised Speech Representations Towards Efficient Multilingu

最新推荐文章于 2024-09-27 22:55:17 发布

反卷斗士小郑

最新推荐文章于 2024-09-27 22:55:17 发布

阅读量291

点赞数

分类专栏：语音识别论文笔记文章标签：深度学习人工智能语音识别

本文链接：https://blog.csdn.net/Zwr198/article/details/127936550

版权

语音识别论文笔记专栏收录该内容

7 篇文章 2 订阅

订阅专栏

将自监督语音表征用于高效的多语言和多任务语音处理

1.引言

对于ASR来说，大规模的转录数据很难获得，这限制了深度ASR模型的广泛应用，同时，在需要同时识别多种语言或执行多个语音处理任务的多语言/多任务场景中，这种效率问题会更加严重：如果为每个目标语言/任务调整一个单独的模型，存储和计算成本将显著增加，从而禁止现有语音SSL模型的实际部署。针对这些问题，本文旨在促进语音SSL模型的实际使用，在提高效率和缓解过拟合方面实现双赢，以提高低资源设置下的任务准确性。
文本开发了一个框架，称为自监督语音表征路由器(S3-Router)，它可以作为一种一体化技术来解决上述挑战，并在很大程度上增强语音SSL模型的实际使用，具有以下贡献：

下游语音处理提供了一种新的微调方案，即通过在预先训练的模型权值上学习二进制掩码来微调模型结构的连接，显著地缓解了模型过拟合，从而提高了在低资源设置下的标准权值微调方法的可实现精度
通过在SSL预训练继承的共享模型权值上学习特定于语言/任务的二进制掩码，实现多语言/多任务技术
采用具有竞争力的ASR修剪技术，在保持任务准确性的同时，降低语音SSL模型的复杂性
一种新的工具，可以定量分析语音SSL模型中编码的内容，这要归功于学习到的掩码在共享模型权重之上的二进制性质

2.S3-Router框架

最近的研究发现，具有良好天生准确性和对抗鲁棒性的子网络隐藏在随机初始化的网络中，而不需要进行任何权值训练。具体而言，可以从随机初始化的网络中识别出精度相当高的子网络，甚至可以与其密集网络相匹配。因此，只需更新模型连接的稀疏模式，而不修改随机初始化的模型权值，就可以生成精确的和对抗鲁棒的模型。这些开创性的工作表明，调整模型结构的连接（可以通过学习到的连接稀疏模式来表征）可以与训练模型权重一样有效。本文假设模型稀疏性不仅有利于模型效率，而且还可以作为模型权重来编码特定于语言/任务的信息。
在这里插入图片描述
结合上图理解S3-Router，给定不同口语（或不同任务）的原始音频，S3-Router通过在给定语音SSL模型的共享权重上优化特定于语言/任务的二进制掩码，对每个目标口语/任务的模型结构的连接模式进行微调，而不是像在通用的pretrain-finetune范式中采用的那样微调模型权重。具体来说，学习到的每种语言/任务的二进制掩码与共享模型权重相乘，以屏蔽给定语音SSL模型中的一些参数，其中其余参数为不同的口语和下游任务编码特定于语言/任务的信息。请注意，对于每一种语言或任务，只有一组二进制掩码和一个轻量级头文件（例如ASR的分类头文件，由于字典大小不同，它自然是跨语言不可共享的）需要独立训练。
形式上，S3-Router框架可以表述为：
在这里插入图片描述
具体的训练细节这里不在进行详细的说明，可以参考原论文进行了解。
本文同时提出了一个新的初始化方案，首先通过随机初始化获得与共享权重相同维度的掩码值，然后进行基于幅度的排序，将较大的掩码值分配给具有较大幅度的权重元素。因此，权重元素掩码值之间的排序顺序与它们的幅值之间的排序顺序相同。通过这种方式，可以保持掩码的可训练性，同时可以利用学到的语音SSL模型知识。