时间建模问题:一种用于语音情感识别的新的时间情感建模方法

下面分享2023年2月27日-3月3日看的一篇论文,方向主要是自然语言处理中的语音情感识别

论文题目 Temporal modeling matters:a novel temporal emotional modeling approach for speech emotion recognition
论文地址 Temporal modeling matters:a novel temporal emotional modeling approach for speech emotion recognition
时间 2022年
会议/期刊 ICASSP

时间建模问题:一种用于语音情感识别的新的时间情感建模方法

摘要:语音情感识别 SER 通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。为了实现这一目标,我们为SER 引入了一种新的时间情感建模方法,称为时间感知双向多尺度网络 TIM-Net ,它从不同的时间尺度学习多尺度上下文情感表示。具体而言,TIM-Net 首先使用时间感知块来学习时间情感表征,然后整合来自过去和未来的补充信息来丰富上下文表征,最后融合多个时间尺度特征以更好地适应情感变化。在六个基准 SER 数据集上的大量实验结果表明,TIM-Net 的性能优越,在每个语料库上,平均 UARWAR 比第二好的提高了 2.34%2.61% 。值得注意的是,TIM-Net 在跨语料库 SER 任务上优于最新的领域自适应方法,显示出强大的通用性。

1. Introduction

语音情感识别(SER)是从语音信号中自动识别人类情绪和情感状态,使机器能够与人类进行情感交流[1]。随着人机交互技术的发展,它变得越来越重要。
SER 的关键挑战是如何从语音信号中建模情感表征。传统方法[2,3] 专注于手工特征的有效提取,这些特征被输入到传统的机器学习方法中,例如支持向量机(SVM)。基于深度学习技术的更新方法旨在以端到端的方式学习语音的类判别表示,其采用各种深度学习架构,如卷积神经网络(CNN)[4,5] 、递归神经网络(RNN)[6,7] 或 CNNRNN [8] 的组合。
SER 中广泛采用了多种时间情感建模方法,如长短期记忆(LSTM)、门递归单元(GRU)和时间卷积网络(TCN),旨在捕获语音信号的动态时间变化。例如,Wang等人[7] 提出了一种 Bi-LSTM,以利用来自不同时频分辨率的时间信息。Zhong等人[9] 使用具有双 GRU 和焦点丢失的 CNN 来学习综合时空表示。Rajamani 等人[6]在 GRU 中提出了一种基于注意力的 ReLU,以捕捉特征之间的远程交互。Zhao 等人[8] 充分利用 CNNBi-LSTM 来学习时空表示。然而,所有这些方法都存在以下 缺点:1)它们仍然缺乏足够的能力来捕获长期上下文建模的长期依赖关系;2)受说话人不同的发音速度和停顿时间的影响严重,因为他们只能从低层次的特征[10] 感知固定的时间尺度或感受野(receptive field)。
为了克服SER中的这些限制,我们提出了一种时间感知双向多尺度网络,称为 TIM-Net 。这是一种新的时间情感建模方法,用于从不同时间尺度学习多尺度上下文情感表示。贡献有三个:首先,我们提出了一种基于扩展因果卷积(Dilated Causal Convolution )的时间感知块,作为 TIM-Net 的核心单元。扩张卷积(又称为膨胀卷积)可以扩大和细化时间模式的感受野(Receptive Fields)。与 RNNs 相比,因果卷积(Causal Convolution)结合扩张卷积(Dilated Convolution)可以帮助我们放松一阶马尔可夫性质的假设[11]。通过这种方式,我们可以将一个 N-order (N 表示所有先前帧的数目)连接到网络以聚合来自不同时间位置的信息。第二,我们设计了一种新的双向架构,该架构集成了来自过去和未来的补充信息,用于建模长期时间依赖性,灵感来自于上下文信息极大地影响人类的情感感知能力这一事实。第三,我们设计了一个基于多尺度特征的动态融合模块,以动态处理不同尺度的语音信号,因为发音习惯(如速度或暂停时间)因说话者而异,使得语音呈现出时间尺度变化的特征。

2.Methodology

2.1 Input Pipiline

为了说明 TIM-Net 的时间建模能力,我们使用最常用的 Mel 频率倒谱系数(MFCC)特征[12]作为 TIM-Net 输入。我们首先将采样率设置为每个语料库的原始采样率,并将成帧操作和汉明窗应用于具有 50ms 帧长和 12.5ms 移位的每个语音信号。然后,在对每个帧执行 2048 点快速傅里叶变换之后,语音信号经历梅尔尺度三角滤波器组分析。最后,通过离散余弦变换处理 MFCC 的每一帧。

2.2 Temporal-aware Bi-direction Multi-scale Network

我们提出了一种新的时间情感建模方法,称为 TIM-Net,它从向前和向后方向学习长期情感依赖性,并在帧级别捕获多尺度特征。图1显示了 TIM-Net 的详细网络架构。为了学习具有长程相关性的多尺度表示,TIM-Net 由以下组成 n 具有不同时间感受野的正向和反向的时间感知块(TAB)。接下来,我们详细介绍每个组件。
图片1

图1 所提出TIM-Net的框架

时间感知块TAB )。我们设计 TAB 来捕获时间感知表示,将其作为 TIM-Net 的核心单元。如图所示, T T T 表示一个TAB ,每个TAB 由两个子块和一个 sigmod 函数组成来学习时间注意图 A A A ,通过按元素生成输入和 A A A 来产生时间感知特征 F F F,对于第 j j jTAB T j T_j Tj 的两个同一子块,每个子块开始时添加一个扩张率为2的 j − 1 j-1 j1 次方的 DC Conv(扩展因果卷积)并且伴随着因果约束。扩张卷积扩大和细化了接受域(Receptive Field),因果约束(Casual Constraint)保证了未来信息不会泄露给过去。DC Conv 之后是批量归一化、ReLU 激活函数和空间池化(dropout)。

双向时间建模Bi-direction temporal modeling) 为了整合来自过去和未来的互补信息,以判断情绪极性并建模长期时间依赖性,我们设计了一种基于多尺度特征的新型双向架构,如图1所示。Formally(形式上),对于前面 TAB 输入 F j F_j Fj T j + 1 T_{j+1} Tj+1

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值