本文的作者是Qiquan Zhang, Qi Song, Zhaoheng Ni , Aaron Nicolson, Haizhou Li。
研究动机
文中表明很多的增强研究没有考虑到时频域上语音的表示的能量分布,而能量分布对于mask或者频谱的预测都是很重要的。所以本论文中,提出了一个T-F attention模块,时频域上自注意力机制的模块,用一个基本的网络架构叫做ResTCN。
早前的研究中,多层感知机是比较广泛应用的结构,但是它不可以应用到长时依赖当中,为了解决这个问题,就提出了LSTM,但是LSTM有一个缺陷,虽然可以考虑到长时的序列信息,但是它的参数量很大,就增加了计算量,后来为了解决问题,又提出了各种网络。但是现存的网络都是集中于怎样使得长时序列信息更加有效,而没有注意到时频域表示的能量分布,受这一启发,本文提出了T-F注意力模块,T-F模块有两个分支,一个是时域维度上的分支,一个是频域维度上的分支。最后二者再结合起来得到时频域上维度的信息。实现了信息融合。本文的学习目标有两个,一个是IRM,一个是PSM。
T-F的模块工作机制是输入首先经过STFT得到时频域表示后,再分别通过两个分支得到时域维度上的向量和频域维度上的向量表示,最后二者再矩阵相乘,得到时频域上的表示矩阵,在和原始的时频域表示做一个点积,得到最后的结果。时域维度上得到的向量是把原始STFT后的时频域矩阵除以频域通道得到一个向量就是时域维度上的向量,频域维度上的向量同理。得到的向量在经过卷积操作和激活函数后得到最终的结果。模块的工作图如下:
整个网络的架构如下:
实验对比: