(论文)MADD: A Multi-lingual Multi-speaker Audio Deepfake Detection Dataset

摘要:

人工智能驱动的语音合成和语音转换方面的进步现在能够令人信服地模拟人类语音,这给调查人员和司法系统辨别真实音频和人工生成的音频带来了越来越大的挑战。创建有效的音频深度伪造检测器需要大规模和高质量的数据。现有数据集侧重于高资源语言的单语数据。

在本文中,构建了一个多语言多说话人音频深度伪造数据集,名为 MADD。 MADD的来源来源于Common Voice和Gigaspeech2。 MADD 数据集利用 6 种语言的各种深度语音合成和语音转换技术,包含 288 个说话者的 129,990 条深度合成话语,总持续时间为 155.66 小时。

结论:

通过构建了一个多语言多说话人音频深度伪造数据集,名为 MADD。 MADD的来源来源于Common Voice和Gigaspeech2。 MADD 数据集利用 6 种语言的各种深度语音合成和语音转换技术,包含 288 个说话者的 129,990 条深度合成话语,总持续时间为 155.66 小时。研究者们成功地为音频深度伪造检测领域提供了一个重要的资源,旨在帮助研究人员和司法系统更好地应对音频伪造带来的挑战。

这篇论文不仅展示了MADD数据集的构建过程和特点,还强调了在音频深度伪造检测领域进行多语言研究的重要性。

背景:

随着深度学习技术的进步,语音合成(TTS)和声音转换(VC)技术的质量显著提高,使得合成音频与真实音频之间的区别变得越来越困难。这种技术的滥用可能导致误信息传播、电话诈骗和声音身份盗窃等问题。因此,开发有效的音频深度伪造检测(ADD)模型变得至关重要,而这需要大规模和高质量的数据集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MaximusCoder

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值