《TIME-FREQUENCY ATTENTION FOR MONAURAL SPEECH ENHANCEMENT》论文阅读

qq_46079584

已于 2022-02-17 13:01:15 修改

阅读量960

点赞数

文章标签：其他音视频

于 2022-02-17 12:45:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46079584/article/details/122980709

版权

本文的作者是Qiquan Zhang, Qi Song, Zhaoheng Ni , Aaron Nicolson, Haizhou Li。

研究动机

文中表明很多的增强研究没有考虑到时频域上语音的表示的能量分布，而能量分布对于mask或者频谱的预测都是很重要的。所以本论文中，提出了一个T-F attention模块，时频域上自注意力机制的模块，用一个基本的网络架构叫做ResTCN。

早前的研究中，多层感知机是比较广泛应用的结构，但是它不可以应用到长时依赖当中，为了解决这个问题，就提出了LSTM，但是LSTM有一个缺陷，虽然可以考虑到长时的序列信息，但是它的参数量很大，就增加了计算量，后来为了解决问题，又提出了各种网络。但是现存的网络都是集中于怎样使得长时序列信息更加有效，而没有注意到时频域表示的能量分布，受这一启发，本文提出了T-F注意力模块，T-F模块有两个分支，一个是时域维度上的分支，一个是频域维度上的分支。最后二者再结合起来得到时频域上维度的信息。实现了信息融合。本文的学习目标有两个，一个是IRM,一个是PSM。

T-F的模块工作机制是输入首先经过STFT得到时频域表示后，再分别通过两个分支得到时域维度上的向量和频域维度上的向量表示，最后二者再矩阵相乘，得到时频域上的表示矩阵，在和原始的时频域表示做一个点积，得到最后的结果。时域维度上得到的向量是把原始STFT后的时频域矩阵除以频域通道得到一个向量就是时域维度上的向量，频域维度上的向量同理。得到的向量在经过卷积操作和激活函数后得到最终的结果。模块的工作图如下：

整个网络的架构如下：

实验对比：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。