语音自监督模型总结【持续更新】

留意_yl

已于 2023-08-28 17:29:31 修改

阅读量1.4k

点赞数 1

文章标签：机器学习音频

于 2023-07-14 16:17:33 首次发布

本文链接：https://blog.csdn.net/qq_45048777/article/details/131710583

版权

本文介绍了几种自监督学习方法在语音处理中的应用，如TERA通过特征变换和重建学习上下文表征，Wav2Vec利用CNN和Transformer预测未来信息，Wav2Vec2.0引入量化模块优化表示，HuBert利用随机mask和伪标签学习高级表示，而WavLM和PASE+则分别针对多任务和语音干扰进行了优化。这些预训练模型旨在从无标签数据中学习，提升下游任务性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自监督学习
Self-Supervised learning(SSL)，从无标签数据中学习。对本文提到的SSL模型来说，它们作为可以为下游任务提供服务的预训练模型，需要学到输入语音的高维表征，也就是将输入语音的声学特征映射到一个紧凑的向量中；另一方面，作为可重复使用的预训练模型，他们可以减小计算复杂度、使下游任务更容易获得高维表征并达到提升下游任务性能的效果。

TERA
全称：Transformer Encoder Representations from Alteration
Method:
在这里插入图片描述
输入为log-Mel/fMLLR/MFCC/FBANK等特征，即红色矩形Real Frams。
接着可以对特征进行处理，包括三种Alteration：Time Alteration（如下图B、C所示）、Frequency Alteration（D）、Magnitude Alteration（E）。三种同时使用（F）。得到altered input x^。
在这里插入图片描述
将x^输入到Transformer encoder(Fig1 TERA矩形框) + Pnet(两层前馈网络)。Pnet输出为input signal的重构信号。模型获取关于损坏或更改部分周围的内容，通过重建信号使模型学到更多的上下文表征。

对于下游任务，TERA提供Tenc的输出，768维。

Wav2Vec
method:
在这里插入图片描述
输入为语音波形，经过两个CNN网络，分别为encoder network（5层）和context network（9层），输出是general representation(通用表征)。模型要通过给定的信息预测未来信息。
encoder network的任务是将x映射到低时频的特征，每个时间步的Zi对应10ms，音频样本为16kHz。然后将前一个网络输出的多个Zi通过Context network映射到Ci，形如Ci=g(zi…zi-v)，Ci的感受野为v个时间步，context 网络的作用是通过给定的Zi来预测未来信息，强迫该表征学习上下文信息。具体见loss的计算方法：在这里插入图片描述
当预测第k个未来信息时，先对Ci做线性变换预测未来信息即hk(Ci), 用Zi+k当做答案，此为正样本，对两者做内积，向量越接近则绝对值越高。对于负样本z~，从Z中均匀地选择干扰因子，使预测的第k个时间步信息远离负样本。例如，k=1时，正样本对为Ci 和 Zi+1，k=2时，正样本对为Ci 和 Zi+2。负样本对为Ci和从encoder的所有输出Z 中随机选择的λ个样本。最后对K个时间步的损失加起来就是总损失在这里插入图片描述
Wav2Vec训练结束后，输出Ci表征（512维）为下游任务服务。

参考链接：https://blog.csdn.net/tobefans/article/details/125434796

Wav2Vec2.0
在这里插入图片描述
通过与码本的结合引导Transformer预测更好的representation。在Wav2Vec的基础上添加了一个量化模块得到q。q是latent representation到码本的一种映射，取与其最接近的向量。具体做法是对latent representation做Gumbel softmax ，将概率最大的一项设为1变成onehot向量，与码本相乘得到quantizied representation(量化表征)，将其作为训练目标引导模型学习。
损失函数包含两部分：
在这里插入图片描述
contrative loss:
sim(a,b)代表余弦相似度，qt是真实量化表征，ct是预测结果，Qt包括真实量化表征和K个干扰项

Diversity loss：

让模型从多个码本中学习，具体见论文：wav2vec 2.0: A Framework for Self-Supervised
Learning of Speech Representations

HuBert
全称：Hidden Unit Bert
PL(Pseudo Label) 伪标签
在这里插入图片描述
模型结构为CNN+Transformer Encoder，前者将原始语音编码到latent representation（512维），然后对其进行随机mask，每次mask连续的几帧，比如10帧，因为语音总是连续的。将被mask过的语音表征过Transformer encoder得到另一个表征（768维），此时预测出了被掩蔽的区域。另一边，对于输入的每一帧，采用K-means的方法对其进行分类，分类结果即为前述伪标签，并得到整条语音在类别上的分布，对预测结果同样做这样的操作。此时两者在时间上是对齐的，模型对这两个结果做交叉熵loss。预测损失仅用于掩蔽区域，迫使模型学习未掩蔽输入的良好高级表示，从而正确地推断掩蔽区域的内容。

K-means和Gaussian混合模型得到的隐藏单元展示出了与底层声学单元的非平凡相关性: A nonparametric Bayesian approach to acoustic model discovery

HuBert Base特征为768维
附上参考的讲解：论文解读Hubert

WavLM
method:
在这里插入图片描述

WavLM和UniSpeech-SAT都是HuBert的变体。
WavLM的改进在于：
1）一部分数据是带噪或重叠语音，从而其输出的表征能对语音分离和语音增强这一类任务起到很好的辅助作用，而不是仅针对ASR任务。其输入是带噪重叠语音，但在对预测结果做聚簇时，仍然和干净语音的簇比较。
2）模型结构也有不同，在Transformer Encoder加入了Gated Relative Position Bias，帮助网络更好的捕捉相对位置信息以及输入语音的序列顺序。
3）数据从60k增加到94k小时。

PASE+
method：
在这里插入图片描述
该模型由一个语音干扰模块，一个语音编码模块和12个workers构成。
语音干扰模块：通过向原始语音加入混响、噪声、频域掩蔽、时域掩蔽或裁剪等方式对其进行干扰。
12个workers是小型前馈神经网络，其任务为回归任务或二分类任务。回归任务包括估计语音特征、估计原始波形等。二分类任务包括LIM和GIM，分别有辨别不同说话人和更好地从一句输入语音中学习高维表征的能力。worker框中的LONG意味着使用了更长的analysis window（200ms），而不是其他任务常使用的25ms。