《Human Listening and Live Captioning:Multi-Task Training for Speech Enhancement》

本篇文章的作者是Sefifik Emre Eskimez*, Xiaofei Wang*, Min Tang, Hemin Yang, Zirun Zhu,Zhuo Chen, Huaming Wang, Takuya Yoshioka,Microsoft, One Microsoft Way, Redmond, WA, USA

本篇文章主要是应用多任务实现听觉和现场字幕的应用,用了增强模型提高下游任务ASR模型的性能。

研究动机

网上会议、疫情等原因使得人们在网上办公的概率变大,如何能够使得办公软件、聊天软件的字幕效果好以及音频质量高是本文提出的动机。

INTRODUCTION

整个框架是按照两步走的。一步是SE-step,一步是ASR-step。前者是最常规的自监督训练模型的方式,后者是拿前者产生的增强数据实现识别的功能。在这两步里面,只有前者是用损失函数回传改变参数,后者是与训练好的模型,不会改变自身的参数,采用了冻结。

模型框架

        

      SE-step是最常规的训练,ASR-step产生的输出和目标输出做损失,返回给SE步骤的模型去调整SE模型的参数,目的是为了寻找适合ASR的SE模型,所以ASR不改变参数。

      应用的是DCCRN网络---实现了最好的SE性能(encoder---2层lstm----decoder),用的是CRM的方式增强信号。

 

 SE-step所用的损失函数是PHASEN loss,损失函数如下:

 ASR-step损失函数是将模型产生的输出序列和目标输出比对,用交叉熵损失函数,更新SE模型的参数。

实验和数据

       训练SE模型用的数据集是一个包含1000小时的音频配对样本。另外,干净语音样本中还混合了RIR(acoustic room impulse response)。

       训练ASR模型用的数据64百万英语语句,包含75000小时。

       多任务训练数据ASR用的是75000的一部分数据,这些数据包含模拟数据和增强数据,模拟数据和用SE模型产生的数据不一样,增强数据指的是数据增强技术产生的数据。

       评估数据用的是模拟和真实的数据,模拟数据包含了-10dB---30dB,60小时的数据。真实数据用了两个带噪数据音频,第一个包含了18小时的实验室数据,第二个包含了18小时的会议记录数据。另外,包含了7803个词组成的干净语音测试集来衡量SE模型产生的失真效果。

       用的是pytorch架构,SE模型训练了50epochs,batch=96,用了4块NVIDIA V100 GPU。ASR模型接收的是240维的数据,用3帧进行堆叠,每一帧10毫秒。

        考虑了因果和非因果的模型,二者的区别在于,前者只能用当前以及过去的时间帧来进行模型的训练,后者也可以用未来的数据进行训练,相当于人为假想的知道未来的数据,但在实际的测试中,我们是不可能知道未来的数据是什么样子的,如果知道,我们就不用训练了,知识看一下那个模型效果好,毕竟要投入到真正的实际应用当中。

实验结果:

       下面的图是对比实验,看看那个模型效果好;域内和域外的数据那个好,在那个概率值附近效果比较好等。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值