MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

1.论文摘要

(1)基于问题不可知语音编码器(problem agnostic speech encoder)的改进:在一个卷积encoder 后进阶这多个神经网络worker, 解决自监督问题。
(2)采用了实时语音的distortion 变换,包括加噪和回响。

  • 出发点:
    首先语音信号比较复杂,1)语音信号需要一个复杂的层级结构来表示不同时间刻度下的相关信息:samples → phonemes → syllables → words → sentences → semantic contents。2) 语音信号本身包含很多变化: 说话人的变换,不同语言,声学环境等。
    因此完全的不采用有监督的指导无法学习这种复杂的表征,因此提出了一种多任务学习的方法,每个任务去学习语音信号的一个方面,然后再合并。本文在此基础上再加入了noise 和 回响,增加学到特征的鲁棒性。

2. 论文主体

  • speech contamination 方法:
    (1)reverberation : 通过将输入信号与通过图像方法得出的一组1300个脉冲响应进行卷积来引入混响。混响时间的范围为0.3-0.9.
    (2)add noise: 引入两个数据集的声音,包括固定场景和非固定噪音。
    (3)frequency mask: 频率屏蔽是通过用带阻滤波器对时间信号进行滤波来执行的。
    这三者对asr任务的表现最好。
    在这里插入图片描述
  • PASE+ encoder
    在这里插入图片描述
    (1) 采用skip connection的操作:
    每一个卷积中间层的结果都被线性映射后再做下采样然后添加到最后的表征中。
    (2) Quasi-RNN
    捕捉长距离依赖但当前步的计算不依赖与过去时间步的结果,可并行计算。
    在这里插入图片描述

3. worker

worker 的设置主要解决二分类和回归的任务,

  • Regression Tasks

  • Binary Tasks
    最大化锚点和正例的互信息,
    (1) Local info Max
    正例在本句,负例从其他随机句子取,使得模型学习如何辨认说话人。
    (2) Global info max
    锚点和正例的表征是从同一个sentence 中PASE 得到的长达2s的特征的平均,负例是从其他句子中选取。

自我监督学习是一种机器学习方法,通过对数据进行合理的预测任务,从中获得有用的表示。与传统的监督学习不同,自我监督学习不需要人工标注的标签来指导训练,而是利用数据自身的信息进行训练。 自我监督学习的基本思想是从未标记的数据中构造有意义的标签,然后将这些标签用作训练数据,以学习有用的特征表示。通过对输入数据进行某种形式的变换或遮挡,可以生成一对相关的样本。其中一个样本称为正样本,另一个则被视为负样本。例如,在图像领域中,可以通过将图像进行旋转、裁剪或遮挡等变换来生成正负样本对。模型的目标是通过学习从一个样本到另一个样本的映射,从而使得正样本对之间的相似度更高,负样本对之间的相似度更低。 自我监督学习在许多任务中都取得了很好的效果。例如,在自然语言处理任务中,可以通过遮挡句子中的某些单词或短语来生成正负样本对,然后通过学习从一个句子到另一个句子的映射来进行训练。在计算机视觉任务中,可以通过图像的旋转、裁剪、遮挡或色彩变换等方式来生成正负样本对。 自我监督学习的优点是不需要人工标注的标签,可以利用大量的未标记数据来进行训练,从而扩大训练数据的规模。此外,自我监督学习还可以通过学习到的特征表示来提高其他任务的性能,如分类、目标检测和语义分割等。 总之,自我监督学习是一种有效的无监督学习方法,通过构造有意义的预测任务,从未标记的数据中学习有用的特征表示。它在各种任务中都有广泛的应用,并具有很高的潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值