文章目录
简介
这其实是我们团队参加比赛,然后调研到的文章,做总结的是我的队友,不得不说,总结得简明扼要,而且易懂。她不写博客所以我分享一下,希望我们的分享有些帮助。
论文信息
题目
MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION
用于语音识别的多任务自我监督学习
内容摘要
尽管人们对无监督学习的兴趣日益浓厚,但从未标记的音频中提取有意义的知识 仍然是一个挑战。为了朝这个方向迈出一步,我们最近提出了一种与问题无关的 语音编码器(PASE),该编码器将卷积编码器与多个神经网络(称为工作者)结 合在一起,以解决自我监督的问题(即不需要手动操作的问题)。 PASE 被显示为捕获相关的语音信息,包括说话者的声纹和音素。本文提出了 PASE +,它是 PASE 的改进版本,可在嘈杂和混响环境中实现健壮的语音识别。为此, 我们采用了在线语音失真模块,该模块会以各种随机干扰来污染输入信号。然后, 我们提出一种经过修订的编码器,可以通过有效地结合递归和卷积网络来更好地 学习短期和长期语音动态。 最后,我们改进了自我监督中使用的工作集,以鼓励更好的合作。
TIMIT,DIRHA 和 CHiME-5 的结果表明,PASE +明显优于以前版本的 PASE 和常见的声学功能。 有趣的是,PASE +可以学习适用于高度不匹配的声学条件的可转换表示形式。 索引词-自我监督学习,语音识别 voice-print 声纹 phoneme 音素:是根据语音的自然属性划分出来的最小语音单位,依据音节里 的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉 语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。
论文背景
应用背景
越来越受欢迎的一个相关领域是自我监督学习,其中目标是通过对输入数据应用 已知的转换从信号本身[5,6]中计算出来的。与完全不受监督的方法相反,在自 我监督中,可以通过要求模型恢复已知的信号转换(不需要人的情况下廉价地获 得)来轻松地将专家派生的先验合并到训练过程中。
技术现状
自我监督学习最初是在计算机视觉社区中通过解决各种辅助任务来学习表示的, 这些辅助任务包括为灰度图像着色[7]或解决图像斑块中的难题[8]。自我监督学 习也已成功地应用于语言建模中,从而产生了诸如 BERT [9,10]之类的模型。最近, 类似的范例已用于推断音频表示[11、12],包括具有互信息的学习语音表示[13、 14]。 尽管取得了新的进展,但将自我监督的学习应用于语音仍然是一个挑战。语音信 号需要一个复杂的层次结构(样本→音素→音节→单词→句子→语义内容),其 中包含不同时标的相关信息。语音的特征还在于,由于扬声器内和扬声器间的差 异、干扰,不同的语言、声学环境或录音设置,导致可变性很大。因此,在没有 5
任何监督指导的情况下很难推断出相关的潜在结构。
自我监督的学习在计算机视觉和语言建模方面成功迁移,但在语音方面的迁移运 用仍然是挑战。
论文主要工作
我们最近尝试使用多任务自我监督方法来学习语音表示形式,导致我们开发了与 问题无关的语音编码器(PASE)[15]。学习有意义的语音信息,例如说话者的身 份,音素和情绪。基本假设是,每个自我监督任务都会提供语音信号的不同“视 图”,并且通过将不同的窥视结合为唯一表示,该模型可以更好地学习全面的表 示。PASE 依赖于卷积编码器,然后是小型神经网络的集成,称为工作集,经过 共同培训可以