SE论文笔记（一）——ICASSP 2019的两篇论文

最新推荐文章于 2024-08-12 16:35:57 发布

lengjiayi

最新推荐文章于 2024-08-12 16:35:57 发布

阅读量2.7k

点赞数 1

分类专栏： SE 文章标签：机器学习语音增强 ICASSP2019

本文链接：https://blog.csdn.net/lengjiayi/article/details/103933788

版权

SE 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

AN ATTENTION-BASED NEURAL NETWORK APPROACH FOR SINGLE CHANNEL SPEECH ENHANCEMENT

本论文将Global Attention机制应用到语音增强问题中。

模型结构

这篇论文的整体结构如下：

在这里插入图片描述

这里的Attention就是使用的最基本的Global Attention，其中Encoder分为两种，Stacked和Expanded，实验证明Stacked结构效果更优。具体结构见下图，区别在于计算 $h_t^Q$ 时是使用原始数据（经过tanh放缩）还是使用 $h^K$ 作为LSTM的输入。后者之所以在大部分实验中效果更佳可能是使得 $h_K,h_Q$ 具有更大的相关性，而计算Attention时使用了相似度作为衡量标准。

在这里插入图片描述

关于Generator，从图中看出使用了Global Attention后的特征和 $x_t,h^Q$ 作为输入，从论文中看是先将 $c^t,h^Q$ 拼接后经过 $全连接\rightarrow tanh\rightarrow 全连接\rightarrow sigmoid\Rightarrow mask$ 后和 $x_t$ 做点积，使用的是语音增强的常用思路生成hidden-mask屏蔽噪声。

实验结果

这篇论文的作者自己使用Musan数据集中的噪声和自己的24.5h数据集合成了新的带噪声数据集，使用没经过Attention的LSTM作为baseline。

整体感觉很平淡，没什么创新。实际上我还查到了有一篇使用Transformer的文章投给了ICASSP2020，不知道能不能中。难道这个领域真的刚刚引入Attention？不过显然self-Attention的结构更复杂，参数也多得多，如果效果不好才说不过去。

DENSELY CONNECTED NETWORK WITH TIME-FREQUENCY DILATED CONVOLUTION FOR SPEECH ENHANCEMENT

本论文将DenseNet网络结构应用到了语音增强问题中。

模型结构

DenseNet即将在一个block中，每个Layer的输出都发送给后续Layer作为输入，这样可以有效保证原始特征不会随着网络层数加深逐渐消失。DenseNet一般由多个block构成，且每层网络主体都是卷积神经网络。本论文使用的网络结构如下图：

在这里插入图片描述

作者使用了两个Dense Block，Block中没有用DenseNet中的卷积+BN+ReLU的结构，而是创造了T-F dilated convolutional block结构直译就是(在)时间和频率(上)扩张(的)卷积块。作者认为直接使用卷积会由于CNN“limited respective fields”的原因无法获取语音的长期时间依赖，如果想要提升效果需要叠加许多层网络，效率太低，而且会导致梯度消失。

论文中每个Dense Block中有六个"T-F dilated convolution block"，结构如下图：

在这里插入图片描述