（论文）基于注意力机制的端到端合成语音检测

MaximusCoder

已于 2025-02-25 10:00:36 修改

阅读量666

点赞数 20

分类专栏：大学文章标签： deepfake 经验分享人工智能

于 2025-01-16 15:04:47 首次发布

本文链接：https://blog.csdn.net/Arthur_WangYu/article/details/145183867

版权

大学专栏收录该内容

47 篇文章

订阅专栏

End-to-end Synthetic Speech Detection Based on Attention Mechanism

摘要：

·五种轻量级注意力模块改为适用于语音序列的通道注意力机制和一维空间注意力机制

·ASVspoof2019测试集的等错误率和最小串联检测代价函数都有所降低

·池化层之前嵌入CBAM、ECA的模型测试集EER最低且具有较强的泛化性（且统计性能较基线模型有显著提升）

结论：

·端到端合成语音检测系统 Inc-TSSDNet网络上引用 通道注意力机制和一维空间注意力机制。在 Inc-TSSDNet的合适位置（池化层前或后）嵌入注意力模块可以提升检测系统的性能；

·ASVspoof2019测试集下的EER为3.28%，较基线模型降低了18.8%，且模型参数量增加较少，该模型还具有优秀的跨库性能，其最好结果在ASVspoof2015的验证集和测试集下的EER较基线模型分别降低了67.3%和36.8%；

·在池化层之前嵌入ECA模块的IncTSSDNet模型最好结果在ASVspoof2019测试集下的mint-DCF为0.0861，较基线模型降低了11.8%；

背景：

·语音伪造技术——语音合成（TexttoSpeech，TTS）、语音转换（VoiceConversion，VC）、语音模仿（Impersonation）、重放攻击（ReplayAttack，RA）和对抗攻击（AdversarialAttack）

·随着深度伪造技术的迅猛发展，合成语音的自然度越来越高

·合成语音检测系统一般由前端特征提取器和后端二值分类器组成

· Xiao 等人研究了高维幅频特征的表现，使用对数幅度谱（Log Magnitude Spectrum，LMS）与残差对数幅度谱（Re⁃ sidual Log Magnitude Spectrum，RLMS）构建的检测系统得到了理想的效果；（XIAO Xiong，TIAN Xiaohai，DU S，et al. Spoofing speech detection using high dimensional magnitude and phase fea⁃ tures：The NTU approach for ASVspoof 2015 challenge ［C］//Interspeech 2015. ISCA：ISCA，2015：2052-2056.）

·相位特征，例如群延迟（Group Delay，GD）、修正的群延迟（Modified Group Delay，MGD）、相对相移（Relative Phase Shift，RPS）、基带相位差（Baseband Phase Difference，BPD）；

·倒谱系数特征，如线性频率倒谱系数（Linear Frequency Cepstral Coefficients，LFCC）、梅尔频率倒谱系数（Mel-Frequency Cepstral Coeffi⁃ cients，MFCC）、线性预测倒谱系数（Linear Predic⁃ tion Cepstral Coefficients，LPCC）等；

·基于常数 Q 变换的倒谱特征（Constant-Q Cepstral Coefficients，CQCC）常被用作竞赛中的基线特征

·基于深度神经网络模型的分类器

·注意力机制在计算机视觉越来越受到关注，然后调整适用于语音序列的通道注意力和一维空间注意力

主要内容：

· 基于注意力机制的端到端合成语音检测网络 Inc-TSSDNet展开，详细介绍了注意力机制及其应用、五种常见轻量化注意力模块的原理和实现，以及改进后的 Inc-TSSDNet 网络结构设计。

1. 注意力机制概述

核心思想：模拟人类对重要信息的关注方式，为模型提供选择性地聚焦于输入特征中关键部分的能力。
分类：
- 软注意力：对输入不同部分赋予权重，适合神经网络的可微化需求。
- 强注意力：硬性选择输入的某些部分。
作用域：
- 通道域：强调特定特征通道的重要性。
- 空间域：关注特定时间或空间位置。
- 混合域：同时结合通道和空间信息。

2. 适用于一维语音序列的轻量级注意力模块

文中调整现有注意力模块，适配于一维语音数据，改进端到端语音检测性能：

2.1 SE模块（通道注意力机制）

原理：通过全局平均池化提取每个通道的全局特征，并用瓶颈结构建模通道间相关性。
特点：通过降维减少复杂度，权重控制每个通道对最终输出的贡献。

2.2 CBAM模块（通道+空间注意力）

通道注意力 ：结合全局平均池化和最大池化计算通道权重。
空间注意力 ：对每个时间点的特征分配权重。

2.3 scSE模块（通道和空间注意力并行）

通道注意力 ：与SE模块类似。
空间注意力 ：通过一维卷积生成权重矩阵，强调序列位置的重要性。
创新点 ：通道与空间注意力加权结果相加，综合考量两者作用。

2.4 ECA模块（轻量级通道注意力）

特点：利用一维卷积实现跨通道信息交互，避免降维，性能和效率兼顾。
自适应卷积核大小 ：根据通道数动态确定，提升适应性。

2.5 SA模块（结合分组和通道混洗的注意力）

特点：通过通道分组和混洗结合通道与空间注意力，结构轻量，适合高效计算。
创新点 ：通过ShuffleNet的通道混洗操作实现跨组信息交互。

3. 改进的 Inc-TSSDNet 网络

3.1 网络结构

基于Inception模块，结合扩张卷积，提升感受野，控制复杂度。
层级设计：
- 第一层：1×7卷积层。
- 中间层：堆叠M个改进的Inception模块，每层后跟最大池化层。
- 最后层：全局池化层+三层全连接层。

3.2 注意力模块嵌入

在最大池化层前或后引入五种注意力模块（SE、CBAM、scSE、ECA、SA），优化特征提取。
实验目的：验证不同注意力模块的检测性能与模型复杂度的平衡。

4. 优点与意义

针对性优化：模块设计考虑了一维语音序列的特点，使注意力机制适应语音检测任务。
性能提升：通过注意力机制增强特征表示能力，提高模型检测准确性。
轻量化设计：多个模块采用简化策略，降低模型复杂度，便于实际应用。

在 Inc-TSSDNet 的合适位置嵌入注意力模块可以提升检测系统的性能，

在池化层之前嵌入 CBAM 的 Inc-TSSDNet 模型最好结果在 ASVspoof2019 测试集下的 EER 为 3. 28%，较基线模型降低了 18. 8%，且模型参数量增加较少，该模型还具有优秀的跨库性能，其最好结果在ASVspoof2015 的验证集和测试集下的 EER 较基线模型分别降低了 67. 3% 和 36. 8%；

在池化层之前嵌入ECA 模块的IncTSSDNet 模型最好结果在 ASVspoof2019 测试集下的 min t-DCF 为 0.0861，较基线模型降低了 11. 8%

贡献点：

调整并使用了五种注意力模块中的算法