自监督
pitaojun
这个作者很懒,什么都没留下…
展开
-
MASKED PRE-TRAINED ENCODER BASE ON JOINT CTC-TRANSFORMER
1. 论文摘要 提出了一个包含两阶段训练:masked pretrained encoder(MPE) 和 Joint CTC-Transformer(JCT) 的半监督声学模型, 效果:使用30%WSJ监督数据训练的结果相对于使用50%有监督数据WER 降低17%。增加无监督数据量到960小时,WER 降低22%。 2. 模型介绍 (1)不直接mask 音频数据,而是在网络里做mask. (2)采用过去frames 和 未来frames 来预测当前被masked frame, 因此重构的frame 包含上翻译 2020-12-09 14:39:21 · 229 阅读 · 0 评论 -
MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION
1.论文摘要 (1)基于问题不可知语音编码器(problem agnostic speech encoder)的改进:在一个卷积encoder 后进阶这多个神经网络worker, 解决自监督问题。 (2)采用了实时语音的distortion 变换,包括加噪和回响。 出发点: 首先语音信号比较复杂,1)语音信号需要一个复杂的层级结构来表示不同时间刻度下的相关信息:samples → phonemes → syllables → words → sentences → semantic contents。2)翻译 2020-12-09 14:37:37 · 266 阅读 · 0 评论 -
Self-training and Pre-training are Complementary for Speech Recognition
#Self-trainingandPre-trainingareComplementary forSpeechRecognition ## 论文思路: 将self-train和 预训练结合起来有互补的作用,并在有限的标注数据上(10min)取得了超过了960有监督数据的训练的最好结果。 ## 1. self-training approch 现在一个有限的数据集上训练一个初始模型,然后用这个初始模型和语言模型去对未标注数据打标签。然后假标签数据和以前有标签的数据一起训练一个新模型。 ...翻译 2020-11-05 20:16:00 · 320 阅读 · 0 评论 -
An Unsupervised Autoregressive Model for Speech Representation Learning
1. 论文摘要 出发点是为下游任务保留尽可能多的信息,希望学到使用线性分类器就能在下游任务中表现较好的特征,并且可以在多个不同任务中有较好的表现。 不需要音素级别或者字级别的边界标签。在模型的下面层的特征表示主要捕捉说话人识别信息,较上层的特征提供更多的音素信息。 文献综述部分观点:(1)低contrstive loss 与低的线性分类器error 相关。 2. 模型介绍 通过一个自回归模型去预测未来时间步的帧级别的输出,对预测值与实际值之间做L1 loss. 模型是采用多层单向的LSTM网络,网络层与层原创 2020-10-20 19:06:46 · 412 阅读 · 0 评论