多模、AI齐上阵，Deepfake换脸术终赢克星？

最新推荐文章于 2025-05-15 11:04:43 发布

beyondma

最新推荐文章于 2025-05-15 11:04:43 发布

阅读量1.6k

点赞数 2

文章标签： ai 微软

本文链接：https://blog.csdn.net/BEYONDMA/article/details/108433583

版权

AI换脸技术如ALAE在Github上引起关注，能生成高清无痕换脸视频，挑战人脸识别安全性。微软推出鉴真工具，识别Deepfake视频准确率超99%。多模态融合身份识别技术成为趋势，阿里集团主导生物识别多模态融合国际标准。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

假作真时真亦假，无为有处有还无。近年来基于AI换脸的技术，不但在Github上时常兴风做浪，也经常在引发各大社交媒体上的大规模口水战，在去年4月初，我国一个网名叫换脸哥的极客,将朱茵在94版射雕中的黄蓉换成了杨幂，而且整段视频毫无违和感，这也让国人初次体会到了AI换脸的威力。后来一款名叫ZAO的APP横空出世，在直播平台上主播们利用实时换脸技术，可以将自己换成某些一线明星来吸引眼球，从而火爆一时。

而今年年初使用自编码模型技术的AI换脸项目ALAE成功登顶了Github趋势榜（https://github.com/podgorskiy/ALAE），相比于之于的之前的Faceswap以及Deepfakes等换脸项目，ALAE可谓将AI换脸带到了一个新高度，这种最新的技术突破了之前的分辨率极限，可以生成高清的换脸图像，以下是效果图，可以看到ALAE的换脸几乎丝毫不露痕迹。

不过值得庆幸的以上这些换脸的项目终于迎来了克星，微软出手打造的视频鉴真工具，可以让经由 Deepfake 等工具处理的伪造视频原形毕露，而且其鉴别成功率可达99%以上，以下是其鉴定效果图。

歌神频繁助攻抓罪犯，人脸识别已成AI应用领域C位

人脸识别技术最开始被人们所熟知还是在2018年前后，在歌神张学友的演唱会上AI至少不下5次帮助公安机关抓捕到逃亡多年的嫌犯。这也让那首经典的《她来听我的演唱会》有了新的含义。当时大众普遍对AI还缺乏了解，据称当时犯人在被捕时都一脸茫然，没想到人脸识别技术能在若干年后准确找到他们。这也让人们惊呼原来人脸识别准确率真的这么高啊。

因为人脸识别技术在人员身份认证上所体现出来的便捷性及带来的效率提升，相关人脸识别产品、解决方案层出不穷。人脸识别被广泛应用于机场、火车站、社区、园区等诸多场景的身份识别、考勤打卡及金融支付应用当中。这也直接开启了一个方便快捷的时代，用户不需要输入密码，甚至连手指都不需要动一下就能完成相关的身份认证，其来势汹汹的气势让很多金融机构也不得不放下身段，躬身入局，向科技公司请求AI技术的加持，把人脸识别加入自身安全认证体系当中。

AI换脸技术的出现，也着实给人脸识别技术的安全性造成了不小的挑战，比如去年5月美国的议长南希.佩洛西就的一段醉酒视频就在Facebook上流传甚广，视频中的议长明显是状态晕沉，醉意十足，不过这后来被证明是一段是由Deepfake生成的假视频。

后来Facebook创始人马克.扎克伯格的一段视频也开始疯传，在视频中扎克伯格说“让我们快速地想象一下，一个人手握偷窃来的数十亿人的隐私信息，他们的所有秘密、生活和未来等等 ”，不过这也是Deepfake的杰作。

而且随着对抗神经网络（GAN）的不断发展，AI生成的假人物越发真假难辩，尤其去年底一名叫做Katie Jones的女政治家，似乎正在美国政坛冉冉升起，她在顶级智库工作，拥有由一批专家和权威人士组成的关系网。她与一名助理国务卿、一名参议员的高级助理以及经济学家 Paul Winfree 都有联系，而且搜索引擎上也能查到相应的新闻报道，不过这位女士其实并不存在，对此美联社已经作出确认，其面部信息是合成的，其相关新闻都是AI捉刀写的。据说这样的幽灵用户在脸书上还有几十万个，而这些帐户可以在社交媒体上不知疲倦的发贴点赞，对于时事发表观点，这也是特朗普当局指责脸书干扰美国大选的主要原因之一。

魔高一尺道高一丈，AI鉴定技术的进步

虽然AI换脸技术在不断发展，但是AI鉴定技术也一直在进步，比如在去年CVPR2019大会上，Photoshop母公司Adobe就联手伯克利共同推出了论文《Learning Rich Features for Image Manipulation Detection》，他们提出的模型可以用于侦测图像是否有被PS修改过。

这款反PS工具准确率极高，根据论文数据显示，一般人眼分辨PS痕迹大约有53%的准确率，即使是专业人士也不超过70%，但是这款反PS工具识别准确率高达99％以上。CVPR2020上，由华为与复旦大学联合发表了一篇论文《FM2u-Net: Face Morphological Multi-Branch Network for Makeup-Invariant Face Verification》，而这篇论文可以通过AI将照片中的人物卸妆，防止恋爱中的男女被“照骗”。

而由微软此次推出的鉴真工具可进行逐帧分析，以验证图像有无存在篡改，不过此次的鉴定工具只对已知的Deepfakes、Faceswap等算法有效，如果使用一种没有公开或者未知的算法，其鉴定准确率无法保证，微软也承认最安全的方法还是基于其云服务Windows Azure 的组件对图像添加数字散列和证书。无论如何现在这样一套可以针对已知换脸算法进行鉴定的工具，还是很有价值和现实性意义的。

换脸并不可怕，多模鉴定才是关键

在去年年末，由谷歌发表了论文SV2TTS（https://arxiv.org/pdf/1806.04558.pdf），其中SV2TTS可以使用低分辨率的原音信息，在短时间内完成转换，生成新的声音。这个算法一经问世，就技惊四座，瞬间就到达了github的趋势榜首位置。（https://github.com/CorentinJ/Real-Time-Voice-Cloning）。而这种换声技术的出现，再结合三星提出Speech-Driven Facial Animation(SDFA论文地址、SDFA的Github链接)其生成的视频不仅可以产生与音频同步的唇部动作，还可以呈现特有的面部表情，例如眨眼，眉毛等，同时能够捕捉说话者的情绪并将其反映在面部表情中。

这也将使得单纯的AI换脸鉴定失去其原有意义。可以说目前只利用单一技术手段的“单模”用户身份识别方案，其可信性与安全性都要打上一个大大的问号，而根据最新的用户体验调研，但凡要在操作中多付出一秒的时间就要承担30%左右的用户流失，这样的成本是企业不能接受的。所以而在当今这个年代，让用户再走回相对安全密码认证的老路也完全行不通，所以这也要求IT界在安全性与用户体验方面做出平衡选择，不过这也是多模融合身份识的战略机遇。

而这里多模态融合的生物识别实际共有两层含义，一是指综合使用“人脸、指纹、掌纹、声纹“多模态的等生物信息，二是指在人脸识别领域，也综合使用”2D人脸、3D人脸、多光谱人脸“等多种模态，以发挥各模态特定的优势。比起单模态的识别技术，多模态类似于一种结构化框架，综合获取多渠道的信息，并根据相应渠道的权值来取得最终结果，这样不仅提升了系统的识别的准确率，还提升了系统的可靠性与容错能力。

在多模识别方面我国企业进展很快，笔者看到近日阿里巴巴宣布在电气和电子工程师协会（IEEE）成功申请成立“移动设备生物特征识别”标准工作组，并立项“生物特征识别多模态融合”国际标准，牵头生物识别国际标准的订立。而牢头成立标准工作组及国际标准，有助于中国APP在全球范围内实现更安全、更规范的应用。

据悉阿里集团多年自主研发的多模态融合人脸识别技术，误识率低至千万分之一，完全符合金融级标准，可以实现用户的精准识别。而本次牵头制订此标准，将使进一步巩固阿里在生物特征识别多模态融合识别领域的领先。据悉，此前阿里及蚂蚁集团已主导及参与制定ISO、ITU国际标准以及国家标准90余项，其中30余项为生物识别技术领域的国际和国家标准。

“一流的公司定标准，二流的公司做技术，三流的公司做产品“，历来龙头企业之间归根结底都是标准之争，如果从顶层规定了技术框架、业务流程、功能要求、性能要求以及安全要求，就实际引领了整个时代的潮流，并掌握到最高的话语权。我相信这也是阿里建立这样一个国际标准工作组的内在原因之一，IEEE也有能力帮助阿里巴巴完成国际化标准推动。