摘要:
人工智能驱动的语音合成和语音转换方面的进步现在能够令人信服地模拟人类语音,这给调查人员和司法系统辨别真实音频和人工生成的音频带来了越来越大的挑战。创建有效的音频深度伪造检测器需要大规模和高质量的数据。现有数据集侧重于高资源语言的单语数据。
在本文中,构建了一个多语言多说话人音频深度伪造数据集,名为 MADD。 MADD的来源来源于Common Voice和Gigaspeech2。 MADD 数据集利用 6 种语言的各种深度语音合成和语音转换技术,包含 288 个说话者的 129,990 条深度合成话语,总持续时间为 155.66 小时。
结论:
通过构建了一个多语言多说话人音频深度伪造数据集,名为 MADD。 MADD的来源来源于Common Voice和Gigaspeech2。 MADD 数据集利用 6 种语言的各种深度语音合成和语音转换技术,包含 288 个说话者的 129,990 条深度合成话语,总持续时间为 155.66 小时。研究者们成功地为音频深度伪造检测领域提供了一个重要的资源,旨在帮助研究人员和司法系统更好地应对音频伪造带来的挑战。
这篇论文不仅展示了MADD数据集的构建过程和特点,还强调了在音频深度伪造检测领域进行多语言研究的重要性。
背景:
随着深度学习技术的进步,语音合成(TTS)和声音转换(VC)技术的质量显著提高,使得合成音频与真实音频之间的区别变得越来越困难。这种技术的滥用可能导致误信息传播、电话诈骗和声音身份盗窃等问题。因此,开发有效的音频深度伪造检测(ADD)模型变得至关重要,而这需要大规模和高质量的数据集。