【会议模型】DWFormer

陶直

已于 2023-05-20 12:11:50 修改

阅读量450

点赞数 1

分类专栏：文章精读文章标签： transformer 文档资料 python 人工智能

于 2023-04-10 21:18:13 首次发布

本文链接：https://blog.csdn.net/GOODWVN/article/details/130021117

版权

文章精读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

DWFormer: Dynamic Window Transformer for Speech Emotion Recognition

本篇来自 ICASSP2023 arxiv.org/pdf/2303.01694v1.pdf

Reader said

transformer火了这么久了，音频领域在大用特用，本篇利用“动态窗口”小技巧提升 SER 任务的表现。第一次看到动态窗口觉得是那个特征提取中滑动窗口带来的灵感，按理来说 SSMs（State Space Models）所带来的提升并不比其他 RNN 这类对时序信息敏感的模型表现好多少，本篇作者利用时序结构的安排让transformer更好的学习到了时序信息。

Absract & Conclusion

表示不同情感的时间区域在语音局部分散在不同的部分，重要信息的时间尺度可能在语音片段内部和跨越不同的范围内变化。基于Transformer的模型在SER领域取得了进展，但现有模型无法准确地定位不同时间尺度的重要区域。

Moreover, the temporal scales of important information may vary over a large range within and across speech segments. Although transformer-based models have made progress in this field, the existing models could not precisely locate important regions at different temporal scales.

提出了一种基于Transformer的新框架DWFormer，旨在在SER领域内捕捉样本内部和跨样本变量尺度的重要时间区域。

We propose a new transformer-based framework, DWFormer, which aims at capturing important temporal regions at variable scales within and across samples in SER field.

它通过动态地将样本分成窗口来利用时间重要性。窗口内应用自我注意机制，以细粒度的方式捕捉局部的时间重要信息。同时也考虑跨窗口的信息交互，以进行全局通信。

A new architecture that leverages temporal importance by dynamically splitting samples
into windows. Self-attention mechanism is applied within windows for capturing temporal
important information locally in a fine-grained way. Cross-window information interaction is also taken into account for global communication.

Introduction

Fig. 1.
在计算机视觉领域，动态设计允许模型具有灵活的感知域，从而捕捉不同形状的目标。

受到这些启发，本篇提出了一种名为动态窗口变换器（DWFormer）的新架构来解决上述问题。所提出架构的核心是 DWFormer 块，由动态局部窗口变换器（DLWT）模块和动态全局窗口变换器（DGWT）模块组成。

The core of the proposed architecture, the DWFormer block, is composed of a Dynamic Local Window Transformer (DLWT) module and a Dynamic Global Window Transformer (DGWT) module.

DLWT 动态地将输入特征分割成几个窗口的不同尺度，并捕捉每个窗口中的局部重要信息。而DGWT 在 DLWT 之后重新测量窗口之间的重要性。

本文贡献如下：

提出了动态窗口变换器（DWFormer）的新架构，旨在解决在 SER 中捕捉具有可变长度的重要时间信息。
我们在 IEMOCAP 和 MELD 上对 DWFormer 进行了评估，并展示了 DWFormer 显著优于基准 transformer 和固定窗口 transformer。

Methodology

fig. 2.

首先，输入音频信号被送入特征提取器以提取特征 $x_0\in \mathbb{R}^{ T \times D }$ ，其中 $T$ 表示特征标记数量， $D$ 表示特征维度。 $x_0$ 通过一个普通的Transformer编码器层，隐藏特征 $x_{11}$ 和注意力权重 $\in \mathbb{R} ^ { H \times T \times T}$ ，其中 $H$ 表示头的数量。 $W$ 被发送到 IC 模块中生成时间重要性估计，作为第一个DWFormer块的输入。

1. IC 模块（Importance Calculation Module）：

fig 3

$\sum\limits_{1}^{T_1} (\frac{1}{H} \sum\limits_{s=1}^{H} a w_s) ]$

IC模块利用从Transformer中获得的 $W$ 进行计算， $a w s$ 表示来自 $s - h e a d$ 的注意力权重， $T_1$ 是平均矩阵 $aw_{avg}$ 的行长度。

Where $a w s$ represents attention weight from $s - h e a d$ , $T_1$ is the row length of the averaged matrix $aw_{avg}$ .

通过IC模块获得的每个标记的重要分数 $impt_{11}$ ，以及隐藏特征 $x_{11}$ 一起转移到 $N$ 个堆叠的DWFormer块中进行进一步计算。

2. 动态窗口块（DWFormer Block）：①DLWT + ②DGWT

fig 1-2

Dynamic Local Window Transformer Module（DLWT）: Attention Mask + FeedForward Network

在这里插入图片描述

为了生成Attention Mask，动态局部窗口变换器（DLWT）模块动态地将输入特征区域进行划分，这里我们称为dynamic window splitting(DWS)。根据IC模块的输入 $impt_{a1}$ 计算出权重窗口，这里的阈值选择为这一组 $impt_{a1}$ 的中位数，从而从输入 $x_{a1}$ 中切割出A/B个情感窗口，就像图4中的weak/strong emotion window。

通过注意力掩码机制具体算法如下：

$M_{i j}=\left\{\begin{array}{rr} 0, & \left(b_{w_{k}} \leq i \leq e_{w_{k}}, b_{w_{k}} \leq j \leq e_{w_{k}}\right. k=1, \ldots, A+B) \\ -\infty, & \text { Otherwise } \end{array}\right.$

$M_{ij}$ 是注意力掩码 $\in \mathbb{R}^{T\times T}$ 中第 $i$ 行第 $j$ 列的值， $b_{wk}$ 和 $e_{wk}$ 是第 $k$ 个窗口的行和列的起始和结束索引。

fig 4

$DLWT(x_{a1}) = FFN(Softmax(\frac { Q_{a1} K_{a1}^T }{\sqrt {d_h}} + M ) V_{a1})$

其中 $FFN$ 代表前馈神经网络， $Q_{a1}$ 、 $K_{a1}$ 、 $V_{a1}$ 是特征 $x_{a1}$ 的投影映射， $T$ 表示转置操作， $d_h$ 是一个缩放因子。

为了生成FeedForward Network，本篇利用权重 $λ$ 进行操作，对于情感相关性较弱的窗口因为有了前一个模块学习到的先验知识，这些先验知识表明它们在情感识别中很可能是冗余的，因此位于这些窗口中的标记的特征将乘以一个权重 $λ$ （≤1），而在情感相关性较强的窗口中的标记将乘以1，输出被定义为 $x_{a2} \in \mathbb{R}^{T\times D}$