《Human Listening and Live Captioning:Multi-Task Training for Speech Enhancement》

最新推荐文章于 2024-06-06 09:59:03 发布

qq_46079584

最新推荐文章于 2024-06-06 09:59:03 发布

阅读量368

点赞数

文章标签：其他音视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46079584/article/details/122534525

版权

本篇文章的作者是Sefifik Emre Eskimez*, Xiaofei Wang*, Min Tang, Hemin Yang, Zirun Zhu，Zhuo Chen, Huaming Wang, Takuya Yoshioka，Microsoft, One Microsoft Way, Redmond, WA, USA 。

本篇文章主要是应用多任务实现听觉和现场字幕的应用，用了增强模型提高下游任务ASR模型的性能。

研究动机

网上会议、疫情等原因使得人们在网上办公的概率变大，如何能够使得办公软件、聊天软件的字幕效果好以及音频质量高是本文提出的动机。

INTRODUCTION

整个框架是按照两步走的。一步是SE-step,一步是ASR-step。前者是最常规的自监督训练模型的方式，后者是拿前者产生的增强数据实现识别的功能。在这两步里面，只有前者是用损失函数回传改变参数，后者是与训练好的模型，不会改变自身的参数，采用了冻结。

模型框架

SE-step是最常规的训练，ASR-step产生的输出和目标输出做损失，返回给SE步骤的模型去调整SE模型的参数，目的是为了寻找适合ASR的SE模型，所以ASR不改变参数。

应用的是DCCRN网络---实现了最好的SE性能（encoder---2层lstm----decoder）,用的是CRM的方式增强信号。

SE-step所用的损失函数是PHASEN loss，损失函数如下：

ASR-step损失函数是将模型产生的输出序列和目标输出比对，用交叉熵损失函数，更新SE模型的参数。

实验和数据

训练SE模型用的数据集是一个包含1000小时的音频配对样本。另外，干净语音样本中还混合了RIR（acoustic room impulse response）。

训练ASR模型用的数据64百万英语语句，包含75000小时。

多任务训练数据ASR用的是75000的一部分数据，这些数据包含模拟数据和增强数据，模拟数据和用SE模型产生的数据不一样，增强数据指的是数据增强技术产生的数据。

评估数据用的是模拟和真实的数据，模拟数据包含了-10dB---30dB，60小时的数据。真实数据用了两个带噪数据音频，第一个包含了18小时的实验室数据，第二个包含了18小时的会议记录数据。另外，包含了7803个词组成的干净语音测试集来衡量SE模型产生的失真效果。

用的是pytorch架构，SE模型训练了50epochs，batch=96,用了4块NVIDIA V100 GPU。ASR模型接收的是240维的数据，用3帧进行堆叠，每一帧10毫秒。

考虑了因果和非因果的模型，二者的区别在于，前者只能用当前以及过去的时间帧来进行模型的训练，后者也可以用未来的数据进行训练，相当于人为假想的知道未来的数据，但在实际的测试中，我们是不可能知道未来的数据是什么样子的，如果知道，我们就不用训练了，知识看一下那个模型效果好，毕竟要投入到真正的实际应用当中。

实验结果：

下面的图是对比实验，看看那个模型效果好；域内和域外的数据那个好，在那个概率值附近效果比较好等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Human Listening and Live Captioning:Multi-Task Training for Speech Enhancement》

本篇文章的作者是Sefifik Emre Eskimez*, Xiaofei Wang*, Min Tang, Hemin Yang, Zirun Zhu，Zhuo Chen, Huaming Wang, Takuya Yoshioka，Microsoft, One Microsoft Way, Redmond, WA, USA 。本篇文章主要是应用多任务实现听觉和现场字幕的应用，用了增强模型提高下游任务ASR模型的性能。研究动机网上会议、疫情等原因使得人们在网上办公的概率变大，如何能够使得办公
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。