【会议模型】DWFormer

DWFormer: Dynamic Window Transformer for Speech Emotion Recognition

本篇来自 ICASSP2023 arxiv.org/pdf/2303.01694v1.pdf


Reader said

transformer火了这么久了,音频领域在大用特用,本篇利用“动态窗口”小技巧提升 SER 任务的表现。第一次看到动态窗口觉得是那个特征提取中滑动窗口带来的灵感,按理来说 SSMs(State Space Models)所带来的提升并不比其他 RNN 这类对时序信息敏感的模型表现好多少,本篇作者利用时序结构的安排让transformer更好的学习到了时序信息。


Absract & Conclusion

表示不同情感的时间区域在语音局部分散在不同的部分,重要信息的时间尺度可能在语音片段内部和跨越不同的范围内变化。基于Transformer的模型在SER领域取得了进展,但现有模型无法准确地定位不同时间尺度的重要区域。

Moreover, the temporal scales of important information may vary over a large range within and across speech segments. Although transformer-based models have made progress in this field, the existing models could not precisely locate important regions at different temporal scales.

提出了一种基于Transformer的新框架DWFormer,旨在在SER领域内捕捉样本内部和跨样本变量尺度的重要时间区域。

We propose a new transformer-based framework, DWFormer, which aims at capturing important temporal regions at variable scales within and across samples in SER field.

它通过动态地将样本分成窗口来利用时间重要性。窗口内应用自我注意机制,以细粒度的方式捕捉局部的时间重要信息。同时也考虑跨窗口的信息交互,以进行全局通信。

A new architecture that leverages temporal importance by dynamically splitting samples
into windows. Self-attention mechanism is applied within windows for capturing temporal
important information locally in a fine-grained way. Cross-window information interaction is also taken into account for global communication.


Introduction

Fig. 1.
在计算机视觉领域,动态设计允许模型具有灵活的感知域,从而捕捉不同形状的目标。

受到这些启发,本篇提出了一种名为动态窗口变换器(DWFormer)的新架构来解决上述问题。所提出架构的核心是 DWFormer 块,由动态局部窗口变换器(DLWT)模块和动态全局窗口变换器(DGWT)模块组成。

The core of the proposed architecture, the DWFormer block, is composed of a Dynamic Local Window Transformer (DLWT) module and a Dynamic Global Window Transformer (DGWT) module.

DLWT 动态地将输入特征分割成几个窗口的不同尺度,并捕捉每个窗口中的局部重要信息。而DGWT 在 DLWT 之后重新测量窗口之间的重要性。

本文贡献如下:

  1. 提出了动态窗口变换器(DWFormer)的新架构,旨在解决在 SER 中捕捉具有可变长度的重要时间信息。

  2. 我们在 IEMOCAP 和 MELD 上对 DWFormer 进行了评估,并展示了 DWFormer 显著优于基准 transformer 和固定窗口 transformer。


Methodology

fig. 2.

首先,输入音频信号被送入特征提取器以提取特征 x 0 ∈ R T × D x_0\in \mathbb{R}^{ T \times D } x0RT×D ,其中 T T T 表示特征标记数量, D D D 表示特征维度。 x 0 x_0 x0 通过一个普通的Transformer编码器层,隐藏特征 x 11 x_{11} x11和注意力权重 W ∈ R H × T × T W \in \mathbb{R} ^ { H \times T \times T} WRH×T×T,其中 H H H 表示头的数量。 W W W 被发送到 IC 模块中生成时间重要性估计,作为第一个DWFormer块的输入。


1. IC 模块(Importance Calculation Module):

fig 3

i m p t = S o f t m a x [ ∑ 1 T 1 ( 1 H ∑ s = 1 H a w s ) ] impt = Softmax [ \sum\limits_{1}^{T_1} (\frac{1}{H} \sum\limits_{s=1}^{H} a w_s) ] impt=Softmax[1T1(H1s=1Haws)]

IC模块利用从Transformer中获得的 W W W进行计算, a w s aws aws表示来自 s − h e a d s-head shead的注意力权重, T 1 T_1 T1是平均矩阵 a w a v g aw_{avg} awavg的行长度。

Where a w s aws aws represents attention weight from s − h e a d s-head shead, T 1 T_1 T1 is the row length of the averaged matrix a w a v g aw_{avg} awavg.

通过IC模块获得的每个标记的重要分数 i m p t 11 impt_{11} impt11,以及隐藏特征 x 11 x_{11} x11一起转移到 N N N个堆叠的DWFormer块中进行进一步计算。


2. 动态窗口块(DWFormer Block):①DLWT + ②DGWT

fig 1-2

Dynamic Local Window Transformer Module(DLWT): Attention Mask + FeedForward Network

在这里插入图片描述

为了生成Attention Mask,动态局部窗口变换器(DLWT)模块动态地将输入特征区域进行划分,这里我们称为dynamic window splitting(DWS)。根据IC模块的输入 i m p t a 1 impt_{a1} impta1计算出权重窗口,这里的阈值选择为这一组 i m p t a 1 impt_{a1} impta1的中位数,从而从输入 x a 1 x_{a1} xa1中切割出A/B个情感窗口,就像图4中的weak/strong emotion window。

通过注意力掩码机制具体算法如下:

M i j = { 0 , ( b w k ≤ i ≤ e w k , b w k ≤ j ≤ e w k k = 1 , … , A + B ) − ∞ ,  Otherwise  M_{i j}=\left\{\begin{array}{rr} 0, & \left(b_{w_{k}} \leq i \leq e_{w_{k}}, b_{w_{k}} \leq j \leq e_{w_{k}}\right. k=1, \ldots, A+B) \\ -\infty, & \text { Otherwise } \end{array}\right. Mij={0,,(bwkiewk,bwkjewkk=1,,A+B) Otherwise 

M i j M_{ij} Mij是注意力掩码 M ∈ R T × T M \in \mathbb{R}^{T\times T} MRT×T 中第 i i i 行第 j j j 列的值, b w k b_{wk} bwk e w k e_{wk} ewk是第 k k k 个窗口的行和列的起始和结束索引。

fig 4

D L W T ( x a 1 ) = F F N ( S o f t m a x ( Q a 1 K a 1 T d h + M ) V a 1 ) DLWT(x_{a1}) = FFN(Softmax(\frac { Q_{a1} K_{a1}^T }{\sqrt {d_h}} + M ) V_{a1}) DLWT(xa1)=FFN(Softmax(dh Qa1Ka1T+M)Va1)

其中 F F N FFN FFN代表前馈神经网络, Q a 1 Q_{a1} Qa1 K a 1 K_{a1} Ka1 V a 1 V_{a1} Va1是特征 x a 1 x_{a1} xa1的投影映射, T T T表示转置操作, d h d_h dh是一个缩放因子。

为了生成FeedForward Network,本篇利用权重 λ λ λ进行操作,对于情感相关性较弱的窗口因为有了前一个模块学习到的先验知识,这些先验知识表明它们在情感识别中很可能是冗余的,因此位于这些窗口中的标记的特征将乘以一个权重 λ λ λ(≤1),而在情感相关性较强的窗口中的标记将乘以1,输出被定义为 x a 2 ∈ R T × D x_{a2} \in \mathbb{R}^{T\times D} xa2RT×D

窗口内的时间重要性( i m p t a x impt_{ax} imptax)由 IC 块计算,记为 i m p t a 2 ∈ R T impt_{a2} \in \mathbb{R}^{T} impta2RT x a 2 x_{a2} xa2 i m p t a 2 impt_{a2} impta2被送到下一个DLWT

①Dynamic Global Window Transformer Module(DGWT):Window Weighted Sum + FeedForward Network

在这里插入图片描述
Window Weighted Sum可以解释为:

w t k = ∑ p = b w k e w k i m p t a 2 p × x a 2 p wt_k = \sum _{p=b_{w_k}} ^ {e_{w_k}}impt_{a2p}\times x_{a2p} wtk=p=bwkewkimpta2p×xa2p

其中 p p p是标记的索引, w t ∈ R ( A + B ) × D wt \in \mathbb{R}^{(A+B)\times D} wtRA+B×D是窗口标记序列。

FeedForward Network可以解释为:

D G W T ( w t ) = F F N ( S o f t m a x ( Q w t K w t T d h ) V w t ) DGWT(wt) = FFN(Softmax(\frac { Q_{wt} K_{wt}^T }{\sqrt {d_h}}) V_{wt}) DGWT(wt)=FFN(Softmax(dh QwtKwtT)Vwt)

上采样后得到 x a 3 x_{a3} xa3,其他利用IC支路计算得到 i m p t a 3 impt_{a3} impta3这里不再赘述,其实现原理为:

i m p t ( a + 1 ) 1 = S o f t m a x ( i m p t a 2 × U p s a m p l i n g ( i m p t a 3 ) ) impt_{(a+1)1} = Softmax(impt_{a2} \times Upsampling(impt_{a3})) impt(a+1)1=Softmax(impta2×Upsampling(impta3))

最后一个DWFormer块后,情感分类输出特征 x ( N + 1 ) 1 x_{(N+1)1} x(N+1)1上应用时间平均池化层来执行,然后是一个多层感知分类器 M L P MLP MLP


Experience

在这里插入图片描述

超参数与优化器配置

在这里插入图片描述
实验结果如 表1 :

  1. DWFormer在IEMOCAP和MELD数据集上均优于Vanilla Transformer和固定窗口Transformer
  2. DWFormer中删除DLWT或DGWT模块会导致显著的性能下降。
    在这里插入图片描述

如图5,Vanilla Transformer、Fixed Window Transformer和ATDA在定位重要的时间信息方面不如DWFormer模型表现好。

横轴表示时间顺序,纵轴表示重要程度。如[s]表示沉默,[lau]表示笑声,y表示“yes”。重要的区域用黄色边框标识,例如笑声、口音(“thanks”)、积极语义(“cool”)等。蓝色边框表示不重要的区域,例如噪音和沉默。

在这里插入图片描述

图3 DWFormer与SOTA的表现
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值