近期,深度学习技术和神经网络在生成型人工智能领域已取得重大突破。如今,关键的通信媒介,如音频、图像、视频和文本,均能实现自动生成,并广泛应用于诸多领域,包括聊天机器人系统(如ChatGPT)、电影制作、代码编写及音频合成等。然而,若AI合成数据被用于不法目的,给社会安全带来极大隐患。
为了解决这一问题,研究社区提出了检测由基于深度学习的方法生成的合成数据(例如,假数据)的任务,这些任务被称为深度伪造检测。本文专注于人类语音,提供了深度伪造语音检测(DSD)任务全面概述。
1 DSD任务挑战赛
深度伪造语音检测(DSD)挑战赛
- 2015年:首个针对英语语音的挑战(ASVspoof 2015-LA任务)。
- 2020年:首个针对英语视频深度伪造检测的挑战(DFDC)。
- 2021年:首个日语数据集、首个韩语数据集、首个中文挑战。
- 2022年:首个针对歌唱的挑战(SVDD 2024,6种语言)、首个多语言数据集(MLAAD,23种语言)。
- 2023年:首个针对多语言会话的挑战(MLAAD)、首个针对歌唱的数据集(SVDD)。
- 2024年:发布了包括MLAAD用于会话语音和SVDD用于歌唱的多语言数据集。
1.1挑战赛的作用和重要性
- 推动 DSD 技术发展: 挑战赛吸引了大量研究人员参与,促进了 DSD 技术的创新和发展。
- 促进数据集和技术的共享: 挑战赛通常伴随着新的数据集发布,并鼓励研究人员分享他们的技术和方法。
- 建立基准: 挑战赛为 DSD 技术提供了客观的评估标准,帮助研究人员比较不同方法的效果。
- 促进合作: 挑战赛为来自不同机构的研究人员提供了一个合作平台,促进了知识交流和合作研究。
1.2 挑战赛的统计数据和分析
- 语言多样性: 目前,大多数挑战赛专注于检测英语语音中的深度伪造,缺乏对多语言的支持。
- 数据类型: 挑战赛主要针对语音数据,但也有一些挑战赛开始探索视频深度伪造检测。
- 参与度和影响力: 随着深度学习技术的进步,参与 DSD 挑战赛的研究团队数量和规模在近年来显著增加,表明该领域越来越受到重视。
1.3 挑战赛存在的不足
- 语言多样性不足: 现有的挑战赛主要集中在英语语音,缺乏对其他语言的探索,限制了模型的泛化能力。
- 数据集不平衡: 一些挑战赛的数据集可能存在类别不平衡的问题,这会影响模型的泛化能力和鲁棒性。
- 数据集可用性: 一些挑战赛没有发布数据集,这限制了其他研究人员的研究和比较。
- 技术局限性: 一些挑战赛的技术要求可能过于严格,限制了模型的实时性和可扩展性。
2 数据集
数据集 |
年份 |
语言 |
说话者(男性/女性) |
话语数量(假/真) |
假语音生成系统的数量 |
真实语音资源 |
话语长度(秒) |
评估指标 |
ASVspoof 2015 (音频) |
2015 |
英语 |
45/61 |
16,651/246,500 |
10 |
清洁的说话者志愿者 |
1至2 |
EER |
FoR (音频) |
2019 |
英语 |
140 |
-/195,541 |
7 |
清洁的Kaggle |
2.35 |
Acc |
ASVspoof 2019 (LA任务) (音频) |
2019 |
英语 |
46/61 |