喜报 | 小米AI实验室团队在 IJCAI 2024 语音深度鉴伪识别挑战赛中获得冠军!

近日,小米AI实验室团队在人工智能领域的A类顶会 IJCAI 2024 收录赛事——第九届 FinVolution 全球数据科学大赛:Deepfake Speech Detection Challenge 中,成功摘得的桂冠。并受组委会邀请,于 IJCAI 2024 会议上分享其相关成果和经验。

3190d563537c6a520e56a7f3255ba60c.png

IJCAI会议自1969年首次举办以来,已成为人工智能领域最具权威、最高水平、最具影响力的学术盛会之一,并被中国计算机学会CCF推荐为A类会议。在 IJCAI 2024 上举办的 Deepfake Speech Detection Challenge 聚焦于“语音深度鉴伪识别”领域,旨在推动语音安全技术的发展,应对日益复杂的伪造语音检测挑战。

本届赛事吸引了来自全球众多顶尖高校、研究机构、企业的461支参赛队伍,共计709名选手。为了应对“语音深度鉴伪识别”这一挑战,小米AI实验室团队开发了一套真假语音甄别系统。在众多参赛队伍中脱颖而出,以优异的成绩取得了第一名。这套系统不仅在判别指标上表现优异,在运行效率上也十分出色,能够满足智能终端设备的实时处理需求。

01

耳听为“虚”,语音合成是把双刃剑

随着人工智能技术的飞速进步,语音合成技术也日益成熟且逼真。现阶段,仅需一段极短的录音素材,便能复刻出发声人的音色。这一技术的进步既带来了诸多便利,也因其真假难辨的模糊界限,引发了社会安全领域的诸多挑战。

语音合成技术无疑是一把“双刃剑”。其有利之处在于,若应用到教育培训领域,就可以为学生提供自动朗读教材的功能,不仅提高了学习效率,还使得学习材料更加生动有趣。例如,一些在线课程利用语音生成器网页版,将文字教材自动转化为语音朗读,帮助学生更好地理解和记忆知识。在智能家居与智能客服领域,语音合成技术更是成为了不可或缺的技术支持,为用户提供24小时不间断的服务,根据用户需求生成相应的语音回应,大大增强了交互体验和服务效率。

尤其在无障碍领域,语音合成技术还可以帮助视力障碍者通过文本到语音的转换,更加便捷地获取信息、与他人交流;甚至还能为言语障碍者开发定制也给独一无二的专属音色,取代以往的普通电子机械音,让声音情感流露更加自然。

然而,与之并存的弊端也十分明显。语音合成技术所带来的真伪难辨的声音,其逼真性不仅给诈骗分子提供了更多的作案手段,他们可以通过获取受害人的少量语音素材,利用语音合成技术伪造出受害人的声音,进行电话诈骗或网络诈骗;同时,恶意攻击者还可以通过模仿用户的声音控制智能设备,进行非授权的购买或访问敏感信息。甚至,在司法实践中,伪造语音也使语音证据在司法领域使用的公正性和可信度面临挑战。

语音深度鉴伪识别,作为此次竞赛的主题,既是社会迫切需求的体现,也是行业发展的关键难点。面对这一问题,传统手段显然已不足以应对,必须依靠技术的突破,和创新的解决方案来加强防范和应对能力。

02

荣获第一,技术追求精益求精

那么,这套真假语音甄别系统是如何研发出来的,又为何能在400多支参赛队伍中脱颖而出,赢得此次竞赛的冠军呢?

在人工智能领域,数据被视为塑造模型潜力的基石。小米AI实验室团队的工程师们深刻认识到这一点,他们先从数据入手,对组委会限定的一系列涵盖“真假”的开源训练数据集进行了深入而细致的分析。这些数据集内容丰富,不仅包含了真实的语音数据,还融入了由真实语音剪辑、拼接而成的混淆数据,为参赛团队设置了不小的辨别挑战。同时,测试数据中还存在大量重放和大型模型合成的假语音,这无疑进一步增加了辨别的难度。此外,训练与测试数据之间的不匹配问题,更是为比赛增添了额外的难度。

为了应对这些挑战,团队的工程师们采用了多种数据增广技巧,如变速、变调、加噪等,并在训练过程中以一定概率对多个样本进行拼接,从而丰富了训练数据的多样性,提高了模型的鲁棒性。

在模型选择方面,尽管预训练大型模型能提供较高的准确度,但其对计算资源的需求限制了其在移动设备上的应用。因此,团队在追求高准确率的同时,也注重到模型在端侧设备上的实时推理能力,以期为用户提供即时的安全防护。经过深入研究,团队选择了EfficientNetV2模型作为他们解决方案的基础,这款模型以其高效的性能和卓越的准确率而著称,其性能甚至在某些方面超越了基于attention的Vision transformer。

团队在此之上,从两个关键角度对EfficientNetV2进行了创新性的改进。首先,团队考虑到在音频特征提取中时谱特征的局限性,这种变换在时间分辨率和频率分辨率之间需要权衡。为了克服这一局限,团队在模型的输入阶段,创新性地引入了一个融合了三种不同时频分辨率的傅里叶变换特征,使得模型能够同时捕获到细节丰富的时间信息和频率特征。

其次,通过共享语音信号的局部信息,有效抑制了模型预测的突发性异常跳变。这种策略还减少了长时语音信号间的相互影响,避免了同一语音中真伪片段的干扰,从而显著增强了模型识别伪造语音片段的能力。

81b9cc8496bdf50a3028e17be03f25dc.png

在设计算法时,团队将模型的实用性和端侧部署能力作为关键的考量标准之一。他们采用了简洁而高效的特征提取与辨别算法,确保了系统的运行效率。这一整体方案不仅兼容端侧部署,还能实时流式推理,满足了在移动设备上对伪造语音进行快速、精确识别的严格要求。得益于这些创新的改进,小米团队的方案在最终复赛阶段一举夺魁。

-

技术是一把双刃剑,小米AI实验室团队希望通过算法的力量,实现对语音真伪的精准辨识,以这份技术创新之力,捍卫用户的安全,为他们带去更加美好的生活体验。也将秉承技术向善的理念,在每个技术环节上追求卓越,精益求精,践行科技服务于社会公益的宗旨。

0efb66fe613b474037e52a0a242e3a75.gif

bd0146811894bcd883f9efd3557e5210.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值