用 AI 打一个电话骗走 22 万欧元
AI 技术的应用门槛正在不断降低,换脸、换声音、生成各种不存在的人像都变得非常容易,但与此同时,犯罪的门槛也降低了。
据《华尔街日报》报道,今年 3 月份,一个不知名的黑客组织利用 AI 语音克隆技术打诈骗电话,结果成功骗到了 22 万欧元。
接电话的是英国能源公司的一名 CEO,在电话中,黑客冒充了该公司母公司董事长,催促该 CEO 紧急进行一笔大额转账,接收方是匈牙利的一家供应商。
黑客要求在 1 小时之内转账,而且他们成功地模仿了那位董事长夹杂德国口音的英语,于是该 CEO 信以为真,将钱打到了指定账户。
得逞之后,他们又联系该 CEO,以董事长的身份告诉他这笔钱会回流到公司账户。
但在资金回流之前,黑客再次冒充董事长打来电话,要求 CEO 再转一笔钱,而且这次是从匈牙利打来的。此时,CEO 感觉事有蹊跷,拒绝了转账要求。然而,之前转给匈牙利供应商的那笔钱已经被转移到了墨西哥和其它几个地方。
警方现在还没有找到犯罪嫌疑人,但所幸,为该公司承保的保险公司愿意赔偿。
克隆语音只需 5 秒的录音样本
随着自然语言处理技术的进步,用 AI 合成特定人声已经不是什么难事。
今年 5 月份,搜狗在一场大会上展示了变声功能,可以把任何人的声音转化成特定声音,让你的声音秒变志玲、马云、高晓松。
而谷歌的一项研究甚至可以借助 5 秒钟的参照语音克隆任意语音。
去年 6 月,谷歌科学家在 arXiv 上发布了一篇用迁移学习完成语音合成的论文,提出了一个名为 Speaker Verification to Multispeaker Text-To-Speech(简称 SV2TTS)的框架。它是一个用于零样本(zero-shot)语音克隆的框架,只需要 5 秒钟的参照语音。也就是说,如果你的录音泄露出去,哪怕只有一小段,也很有可能会被坏人利用。
这项全新的语音合成技术能够通任意一段参考音频中提取出说话者的声纹信息,并生成与其相似度极高的合成语音,参考音频与最终合成的语音甚至不必是同一种语言。除了利用参考音频作为输入外,该技术还能随机生成虚拟的声线,以「不存在的说话者」的声音进行语音合成。
近日,来自比利时列日大学的研究人员复现了该框架并开源了他们的实现,还提供 GitHub 开源工具箱。他们采用了一个新的声码器模型来调整框架,使其能够实时运行。
- GitHub 地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
- 论文:https://puu.sh/DHgBg.pdf