paper review: Seeing Through Noise

最新推荐文章于 2024-09-05 20:31:46 发布

makebei410

最新推荐文章于 2024-09-05 20:31:46 发布

阅读量275

点赞数

文章标签：神经网络深度学习人工智能机器学习

本文链接：https://blog.csdn.net/hmy0410/article/details/105154993

版权

Seeing Through Noise: Speaker Separation and Enhancement using Visually-derived Speech
2017.8
Aviv Gabbay Ariel Ephrat Tavi Halperin Shmuel Peleg The Hebrew University of Jerusalem Jerusalem, Israel

这篇文章主要是说话人的语音分离和增强。作者提出了用视频中的面部信息和唇部变化来增强说话人的语音，消除背景的其他声音。这个方法是基于视频-音频系统预测出的语音光谱信息。
在没有视觉信息的情况下，在过滤其他声音或背景噪音的同时隔离特定的人声的任务被称为鸡尾酒会问题。当N个麦克风记录N个声音时，这个问题是可以解决的。作者解决了具有挑战性的单麦克风情况，并表明，说话人的视觉信息可以帮助解决这个问题。

Audio-Only Speech Separation
主流方法是 spectrographic masking光谱掩模，分离模型找到了一个包含由每个说话者决定的时频TF分量的矩阵。掩码可以是二进制的，也可以是soft。

Audio-Visual Speech Processing
Kahn和Milner使用手工制作的视觉特征衍生二进制和软掩模来进行扬声器分离。Hou等人提出了基于深度卷积神经网络(CNN)的模型来增强噪声语音。他们的网络不输出掩模，而是输出表示增强语音的光谱图。

Visually-derived Speech Generation
作者先介绍了一种之前的方法Vid2speech。Ephrat等人从一个说话人的一系列无声视频帧中生成mel-scale光谱图，用来表征其语音。他们的模型有两个输入:一个是K个连续视频帧剪辑，另一个是(K−1)个连续的密集光流场的“剪辑”，对应于像素连续帧在 (u,v)方向上的运动。他们的体系结构由一个双塔残差网络(ResNet)组成，它接受上述输入并将其编码成一个表示视觉特征的潜在向量。潜在向量被输入到一系列两个全连接层中，然后是一个后处理网络，该网络聚合多个连续的mel-scale光谱图预测，并将它们映射到代表最终语音预测的线性尺度光谱图。

VGG-Face descriptor-based speech generation
作者又提出了一种从无声视频帧生成语音的新方法。语音生成系统将只使用基于VGG-Face的描述符，而不是使用原始视频帧。这个参数约简大大加快了训练的速度。在某些情况下，它甚至被证明会给出更好的结果。
作者使用预先训练的VGG-Face网络来生成说话者的面部描述符，作为第一步。最后3个VGG全连接层被省略了，输出描述符的长度为512，这是一种从VGG中提取人脸描述符的常用方法。
每一帧的描述符序列被输入到另一个神经网络，映射到预测的语音光谱。作者在实验中选择的视频长度330毫秒的帧数。该网络有3个全连接层，每层有1024个神经元，输出层代表着语音mel尺度光谱图。声谱图由0至4khz的128个频率组成(人的语音频率范围约为300hz至3400hz)。
在这里插入图片描述

Audio-Visual Speech Enhancement
思想是分解混合音频信号(包含两个或多个信号）到一个光谱图，以便将每个时间频率(TF)元素分配到其各自的源。这些赋值被用作掩模函数来提取每个源的主要部分。掩模光谱图随后被重建成估计的源信号。
使用Vid2speech和VGG-Face方法来获取每个说话人的语音频谱信息。Vid2speech方法不能生成完美的语音信号，作者使用他们的预测语音只生成掩模，掩模可以用来分离混合噪声中适当的成分。

Separating Two Speakers
有两个说话人 (D1, D2)面对着一个只有一个麦克风的摄像机。假设说话人已知，我们可以提前训练两个独立的视频到语音模型(N1,N2)。N1使用了说话人D1的视听数据集来训练，N2使用了D2的视听数据集。
分离过程如图2,3.
在这里插入图片描述
P1,P2分离的过程可以是二分的，也可以是softmax的。

Speech Enhancement of a Single Speaker
该场景下说话人D面对摄像机，声音被一个麦克风记录下来。背景的声音也被记录下来。假设说话人已知，用这个说话人的视听数据集训练一个视频到音频的网络模型N。
在这里插入图片描述

分离掩模函数F：（F和上面一样，可以是二分的，也可以是softmax）
在这里插入图片描述

Experiments
数据集为GRID Corpus和TCD-TIMIT。为了获得多个说话人的视频，将数据集中的音频混合。语音增强的指标为PESQ，语音分离为SDR\SIR\SCR。分别比较使用video2speech和使用VGG-Face的效果，在语音增强上，video2speech的效果更好。在语音分离上，用softmax时两者差不多，用二分时VGG-Face更好。在TCD-TIMIT数据集上，使用了vid2speech的语音分离方法比原始vid2speech预测的结果要好。

Generalizations
作者微调了网络，对位置的说话人进行语音分离，函数使用softmax，结果video2speech的效果更好。

makebei410

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
paper review: Seeing Through Noise

Seeing Through Noise: Speaker Separation and Enhancement using Visually-derived Speech2017.8Aviv Gabbay Ariel Ephrat Tavi Halperin Shmuel Peleg The Hebrew University of Jerusalem Jerusalem, Israel...
复制链接

扫一扫