喜报 | 小米AI实验室团队在 IJCAI 2024 语音深度鉴伪识别挑战赛中获得冠军！-CSDN博客

近日，小米AI实验室团队在人工智能领域的A类顶会 IJCAI 2024 收录赛事——第九届 FinVolution 全球数据科学大赛：Deepfake Speech Detection Challenge 中，成功摘得的桂冠。并受组委会邀请，于 IJCAI 2024 会议上分享其相关成果和经验。

IJCAI会议自1969年首次举办以来，已成为人工智能领域最具权威、最高水平、最具影响力的学术盛会之一，并被中国计算机学会CCF推荐为A类会议。在 IJCAI 2024 上举办的 Deepfake Speech Detection Challenge 聚焦于“语音深度鉴伪识别”领域，旨在推动语音安全技术的发展，应对日益复杂的伪造语音检测挑战。

本届赛事吸引了来自全球众多顶尖高校、研究机构、企业的461支参赛队伍，共计709名选手。为了应对“语音深度鉴伪识别”这一挑战，小米AI实验室团队开发了一套真假语音甄别系统。在众多参赛队伍中脱颖而出，以优异的成绩取得了第一名。这套系统不仅在判别指标上表现优异，在运行效率上也十分出色，能够满足智能终端设备的实时处理需求。

耳听为“虚”，语音合成是把双刃剑

随着人工智能技术的飞速进步，语音合成技术也日益成熟且逼真。现阶段，仅需一段极短的录音素材，便能复刻出发声人的音色。这一技术的进步既带来了诸多便利，也因其真假难辨的模糊界限，引发了社会安全领域的诸多挑战。

语音合成技术无疑是一把“双刃剑”。其有利之处在于，若应用到教育培训领域，就可以为学生提供自动朗读教材的功能，不仅提高了学习效率，还使得学习材料更加生动有趣。例如，一些在线课程利用语音生成器网页版，将文字教材自动转化为语音朗读，帮助学生更好地理解和记忆知识。在智能家居与智能客服领域，语音合成技术更是成为了不可或缺的技术支持，为用户提供24小时不间断的服务，根据用户需求生成相应的语音回应，大大增强了交互体验和服务效率。

尤其在无障碍领域，语音合成技术还可以帮助视力障碍者通过文本到语音的转换，更加便捷地获取信息、与他人交流；甚至还能为言语障碍者开发定制也给独一无二的专属音色，取代以往的普通电子机械音，让声音情感流露更加自然。

然而，与之并存的弊端也十分明显。语音合成技术所带来的真伪难辨的声音，其逼真性不仅给诈骗分子提供了更多的作案手段，他们可以通过获取受害人的少量语音素材，利用语音合成技术伪造出受害人的声音，进行电话诈骗或网络诈骗；同时，恶意攻击者还可以通过模仿用户的声音控制智能设备，进行非授权的购买或访问敏感信息。甚至，在司法实践中，伪造语音也使语音证据在司法领域使用的公正性和可信度面临挑战。

语音深度鉴伪识别，作为此次竞赛的主题，既是社会迫切需求的体现，也是行业发展的关键难点。面对这一问题，传统手段显然已不足以应对，必须依靠技术的突破，和创新的解决方案来加强防范和应对能力。

荣获第一，技术追求精益求精

那么，这套真假语音甄别系统是如何研发出来的，又为何能在400多支参赛队伍中脱颖而出，赢得此次竞赛的冠军呢？

在人工智能领域，数据被视为塑造模型潜力的基石。小米AI实验室团队的工程师们深刻认识到这一点，他们先从数据入手，对组委会限定的一系列涵盖“真假”的开源训练数据集进行了深入而细致的分析。这些数据集内容丰富，不仅包含了真实的语音数据，还融入了由真实语音剪辑、拼接而成的混淆数据，为参赛团队设置了不小的辨别挑战。同时，测试数据中还存在大量重放和大型模型合成的假语音，这无疑进一步增加了辨别的难度。此外，训练与测试数据之间的不匹配问题，更是为比赛增添了额外的难度。

为了应对这些挑战，团队的工程师们采用了多种数据增广技巧，如变速、变调、加噪等，并在训练过程中以一定概率对多个样本进行拼接，从而丰富了训练数据的多样性，提高了模型的鲁棒性。

在模型选择方面，尽管预训练大型模型能提供较高的准确度，但其对计算资源的需求限制了其在移动设备上的应用。因此，团队在追求高准确率的同时，也注重到模型在端侧设备上的实时推理能力，以期为用户提供即时的安全防护。经过深入研究，团队选择了EfficientNetV2模型作为他们解决方案的基础，这款模型以其高效的性能和卓越的准确率而著称，其性能甚至在某些方面超越了基于attention的Vision transformer。

团队在此之上，从两个关键角度对EfficientNetV2进行了创新性的改进。首先，团队考虑到在音频特征提取中时谱特征的局限性，这种变换在时间分辨率和频率分辨率之间需要权衡。为了克服这一局限，团队在模型的输入阶段，创新性地引入了一个融合了三种不同时频分辨率的傅里叶变换特征，使得模型能够同时捕获到细节丰富的时间信息和频率特征。

其次，通过共享语音信号的局部信息，有效抑制了模型预测的突发性异常跳变。这种策略还减少了长时语音信号间的相互影响，避免了同一语音中真伪片段的干扰，从而显著增强了模型识别伪造语音片段的能力。

在设计算法时，团队将模型的实用性和端侧部署能力作为关键的考量标准之一。他们采用了简洁而高效的特征提取与辨别算法，确保了系统的运行效率。这一整体方案不仅兼容端侧部署，还能实时流式推理，满足了在移动设备上对伪造语音进行快速、精确识别的严格要求。得益于这些创新的改进，小米团队的方案在最终复赛阶段一举夺魁。

技术是一把双刃剑，小米AI实验室团队希望通过算法的力量，实现对语音真伪的精准辨识，以这份技术创新之力，捍卫用户的安全，为他们带去更加美好的生活体验。也将秉承技术向善的理念，在每个技术环节上追求卓越，精益求精，践行科技服务于社会公益的宗旨。