ICASSP2020论文阅读记录1 - 基于VAE的鲁棒视听语音增强(audio-visual speech enhancement)方法

Rarachel的成长之路

已于 2022-12-04 10:42:37 修改

阅读量468

点赞数

分类专栏： ICASSP2020论文阅读文章标签：论文阅读

于 2022-11-30 10:24:33 首次发布

本文链接：https://blog.csdn.net/RachelRicher/article/details/128078021

版权

ICASSP2020论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

论文: Robust unsupervised audio-visual speech enhancement using a mixture of variational autoencoders
Abstract
- - - 1. 动机
    - 2. 本文工作：基于混合VAE的AVSE模型。
Introduction
基于VAE的SE模型
- - 1. 基于VAE的AOSE模型
  - 2. 基于VAE的AVSE模型
VAE混合模型：提出了一种自动选择机制，为每一帧选择AOSE/AVSE
VAE-MM的训练与推断

论文: Robust unsupervised audio-visual speech enhancement using a mixture of variational autoencoders

原文地址: VAE-AVSE. 本文是在阅读原文时的简要总结和记录。

论文题目

Abstract

1. 动机

视听(audio-visual)语音增强比纯音频(audio_only)语音增强(SE)效果更好;
但在视觉信息不可靠时(e.g. 遮挡)，AVSE模型并不鲁棒

2. 本文工作：基于混合VAE的AVSE模型。

混合模型包含两部分：trained audio_only VAE和trained audio-visual VAE
在遇到不可靠的视觉帧时，将AVSE模型切换至AOSE模型，以解决鲁棒性的问题。
通过变分EM方法(variational expectation-maximization)估计模型参数

Introduction

1. 已有基于VAE的纯音频语音增强(audio-only SE)

使用VAE对语音频谱进行建模，通过考虑NMF(nonnegative matrix factorization)噪声方差模型以无监督的方式进行语音增强。

2. 本文的前序工作：基于VAE的AVSE模型

AVSE将视觉信息(e.g lip video frames)与noisy speech一起输入模型，获得clean speech。论文 Audio-Visual Speech Enhancement Using Conditional Variational Auto-Encoders 将基于VAE的AOSE模型扩展为AVSE模型，证明了AVSE比AOSE性能要好，尤其是在信噪比较低时。

3. 现有AVSE模型的缺点：在不可靠的视觉信息时不鲁棒

视觉信息不可靠(e.g. 唇部遮挡)时AVSE模型可能比AOSE模型效果还差。

4. 本文的主要工作：使AVSE模型在视觉信息不可靠时也能拥有鲁棒性能

提出了VAE混合模型：trained AOSE & AVSE模型；
在视觉信息不可靠时，选择AOSE模型，跳过noisy video frames；
选择使用AOSE还是AVSE模型要以一种无监督的方式在每帧时都进行，因此提出了一种变分推断结构来解决此问题。

基于VAE的SE模型

1. 基于VAE的AOSE模型

令 $s_{fn}$ 表示复值STFT结果，其中 $f\in \{0,\dots,F-1\}$ 表示频率下标， $n\in \{0,\dots,N-1\}$ 表示时间下标。在每一时频bin，有如下概率生成模型，即AOSE-VAE:
$s_{fn}|\bf{z_n} \sim \mathcal{N_c}(0, \sigma_f^a(\bf{z_n})),$ $\bf{z_n} \sim \mathcal{N}(0, I)$
1). $\bf{z_n} \in \mathbb{R}^L, L \ll F$ ，是隐随机变量；
2). $\mathcal{N}(0, I)$ 表示0均值单位方差的高斯分布；
3). $\mathcal{N_c}(0, \sigma)$ 表示具有0均值和 $\sigma$ 方差的单变量复值高斯分布；
4). $\bf{s_n}\in\mathbb{C}^F$ 表示在第 $n$ 帧时的STFT;
5). $\{\sigma_f^a: \mathbb{R}^L \rightarrow \mathbb{R}_+\}_{f=0}^{F-1}$ 表示非线性函数，可以用神经网络建模，输入是 $\bf{z_n} \in \mathbb{R}^L$ 。
这些参数是通过定义另一个神经网络(称为编码器/推理网络)使用变分推理来估计的，该网络在给定bf{s_n}的情况下逼近\bf{z_n}的后验。

2. 基于VAE的AVSE模型

$s_{fn}|\bf{z_n, v_n} \sim \mathcal{N_c}(0, \sigma_f^{av}(\bf{z_n, v_n})),$ $z_{ln}|\bf{v_n} \sim \mathcal{N}(\mu_l(\bf{v_n}), \sigma_l(\bf{v_n}))$
1). $\bf{v_n} \in \mathbb{R}^M$ ，表示第n帧时的lip embedding;
2). $\{\sigma_f^{av}): \mathbb{R}^L\times \mathbb{R}^M \rightarrow \mathbb{R}_+\}_{f=0}^{F-1}$ 表示非线性函数，可以用神经网络建模，输入是 $\bf{z_n, v_n}$ ;
3).产生 zn 的先验的非线性函数 $\{\mu_l: \mathbb{R}^M \rightarrow \mathbb{R}\}_{l=0}^{L-1}$ 和 $\{\sigma_l: \mathbb{R}^M \rightarrow \mathbb{R}\}_{l=0}^{L-1}$ 是用一个以 \bf{v_n} 作为输入的神经网络建模的。
以类似于AOSE-VAE 的方式，定义编码器(Encoder)网络, 在给定 $\bf{s_n}$ 和 $\bf{v_n}$ 的情况下逼近 $\bf{z_n}$ 的后验，再与解码器和先验联合训练。

VAE混合模型：提出了一种自动选择机制，为每一帧选择AOSE/AVSE

VAE混合模型(VAE-MM)：
VAE-MM

其中 $\alpha_n$ 是控制第n帧选择AO/AVSE的隐变量，由参数为 $\pi$ 的Bernoulli分布建模。

VAE-MM的训练与推断

带噪语音信号可以表示为 $x_{fn}=s_{fn}+b_{fn}$ ，其中噪声信号 $b_{fn}\sim\mathcal{N}_c(0, (\bf{W}_b\bf{H}_b)_{fn})$ ，即前述NMF噪声模型。其中 $\bf{W}_b\in\mathbb{R}^{F\times K}$ 是一个半正定矩阵，表示频谱功率模式； $\bf{H}_b\in\mathbb{R}^{K\times N}$ 也是半正定矩阵，表示时域激活， $K(F+N)\ll FN$ 。
待估计参数可以写作 $\Theta=\{\bf{W}_b, \bf{H}_b, \pi\}$ ，使用变分期望最大化(Variational Expectation Maximization, VEM)方法来估计这些参数。后验分布可以如下近似：
在这里插入图片描述
其中的变分因子可以通过最小化其与真实后验分布的KL散度来估计。
这一节主要是给出了EM算法的推导结果，就不罗列在此了。主要思想是先求 $\bf{s}_n, \bf{z}_n, \alpha_n$ 的期望，在通过最大似然更新参数。

Rarachel的成长之路

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
ICASSP2020论文阅读记录1 - 基于VAE的鲁棒视听语音增强(audio-visual speech enhancement)方法

ICASSP2020 视听语音增强文章 Robust unsupervised audio-visual speech enhancement using a mixture of variational autoencoders论文阅读记录
复制链接

扫一扫