基于音频语言模型(ALM)的深度伪造音频的扩散,出现了对其负面影响的担忧。如,这项技术可能被用于传播错误信息和虚假新闻,迫切需要有效的检测方法。与通常涉及多步骤过程并以声码器使用结束的传统深度伪造音频生成不同,ALM直接利用神经编解码方法将离散代码解码成音频。此外,由于大规模数据的驱动,ALM展现出显著的鲁棒性和多功能性,为当前的音频深度伪造检测(ADD)模型带来了重大挑战。为了有效检测基于ALM的深度伪造音频,我们从以下三个维度进行优化:
- 专注于ALM基于音频生成方法的机制,即从神经编解码到波形的转换。
- 构建Codecfake数据集(开源的大规模数据集),包括两种语言、百万级的音频样本以及各种测试条件,专为基于ALM的音频检测量身定制。
- 提出CSAM策略,实现深度伪造音频的通用检测并解决原始SAM的领域上升偏差问题。
1、Codecfake数据集
Codecfake数据集包含两种语言:英语和中文,共包含1,058,216个音频样本。其中,英语数据来自VCTK数据集,包含248,031个样本;中文数据来自AISHELL3数据集,包含492,716个样本。此外,训练集共包含740,747个样本,验证集共包含92,596个样本,测试集共包含224,873个样本。因此,Codecfake数据集总共包含超过一百万个音频样本。
- 音频采样率:Codecfake数据集中的音频采样率主要使用16kHz和24kHz。具体来说,SoundStream、SpeechTokenizer和FuncCodec使用16kHz的采样率,而Encodec、AudioDec、AcademicCodec和DAC使用24kHz的采样率。
- 标签及标注:Codecfake数据集提供了真实的标签,用来指示每个样本是真实音频还是伪造音频。