自从摄影术发明的那一刻起,人们便开始孜孜不倦地进行着技术改造。在今天,没有一家手机厂商不在追求更多的摄像头、更高的像素、更先进的成像算法,似乎只为追求一张更逼真的影像。
我们真的在追求“真”么?这几乎是一个完全无法验证的玄学问题。而我们却很诚实地在做一些“去真存假”的事情。比如为照片添加滤镜、为自拍磨皮美白、为视频增添特效。再比如,我们兴致盎然地把自己的脸替换到梦想中的明星身上。
看来追求“真实自我”其实成了一种自欺,而骗过眼睛让大脑愉悦才是人们“真香”的追求,至少在视觉层面尤为明显。以前,当我们说到“以假乱真”、“惟妙惟肖”这些字眼的时候,往往带有一种对艺术的敬意,因为这意味着常人难以实现的难度和巨大的成本。
然而,随着人工智能中GAN(对抗式生成网络)的进化,让静态图像、音视频中人物生成变得日益逼真且廉价,类似Deepfakes这类AI换脸技术普及后,那么问题真的就来了。
2017年,一个名为“DeepFakes”的开发者把AI换脸技术开源,打开了AI造假的潘多拉盒子。Deepfakes成为了这一技术的专有名词。2019年初,随着一段“杨幂换脸朱茵”的视频火爆网络,又开启了中国的AI换脸元年。紧随其后,各类AI换脸作品和应用不断出现,AI换脸随着普通人的 “尝鲜”彻底走向了技术普及和产业失控。
首先,最显著的影响就是AI换脸所掀起的一场色情视频造假的黑产狂欢。不仅针对公众人物、明星,甚至于只要在社交媒体多次上传自拍照,每个人都要面对这一威胁。
更严重的是对于政治选举、公共安全以及经济体系的威胁。一段关于政客受伤、重病的假视频可能引起国内的金融动荡甚至严重冲突。一段假冒权威人士发布恐怖袭击、疾病灾害等假消息的视频会引起群众恐慌甚至暴力冲突。
最为深远的影响就是对于整个社会公信力的影响。越来越多的人从社交媒体获得第一手信息。假视频泛滥让信息真伪难辨,比如刻意伪造的假新闻,模仿领导人、权威专家的权威信息。数以亿计没有专业辨识能力的普罗大众会更容易轻信而被欺骗,引发更大的公信力危机。
作为一项日趋成熟且普遍应用的技术,AI换脸已成不容忽视的存在。
似乎除了色情造假产业的黑产狂欢外,受这一技术影响的相关几方都亟需从当前困境中突围。对于政府来说,如何合理立法以限制造假内容的生产和传播又不越界妨碍民众的言论自由?对于商业应用来说,如何合理商用这项技术又避免侵权或引发信任危机?对于社交媒体来说,如何合理地限制这类造假音视频内容的传播又不限制用户的使用体验?
这些问题的解决,仍然亟待AI技术本身先行给出一套检测和控制假视频的解决方案。
无限游戏:
击败Deepfakes的AI检测技术困境
由技术引发的灾难只能由更先进的技术来解决,这似乎是AI研究者的唯一逻辑。AI换脸的造假检测技术,似乎成为这场技术困境突围的最佳解决方案。
但由于AI换脸的验证检测技术具有严重依赖以往模型的反应机制,即当前方法无法检测新的Deepfakes算法。因此,AI换脸的检测技术与造假技术将长期处在攻防赛状态。
最早向Deepfakes发难的是美国国防部DAPRA。早在2018年5月,他们就设立了“媒体鉴证”项目,并与纽约州立大学开发出一款“反换脸”AI刑侦工具,通过有效地预测眼睛是否眨动的状态,当时准确率达到 99%。然而这款工具还没推广就失效了,因为Deepfakes技术进化了。
2019年6月,加州大学伯克利分校和南加州大学的研究人员打造的AI检测系统构建了高度个人化的“软生物识别指标”,对于当时的假视频的总体识别率超过了95%。但该技术也存在一些破绽,面临被新的Deepfake算法反制的挑战。
因此,这场攻防战的第一个困境就是技术演进的悖论。研究人员如果要提出一个更好的检测技术之前,必须提出一种能够胜过当前市面上流行的AI换脸技术的新方法。也就是说,就要先造出更锋利的“矛”,才能有资格造出更可靠的“盾”。
因为即使研究人员不如此做,随着AI算力越发易得,GAN算法的不断增强,AI换脸技术也在不断升级完善。比如,近期英伟达公开了第二代人脸生成算法StyleGAN2的源代码,它可以根据五官、发色生成自定义风格的人脸图像。基于StyleGAN2也可以结合多张人脸图像进行人脸融合,生成的合成图像同时具备模板图像特征与目标图像特征,已经达到骗过众多人脸识别系统的程度。
第二个困境就是对抗AI造假的数据合法性的牵制。虽然网络黑产有着庞大的Deepfakes假视频数据,但因其违法和侵权属性不可能用于研究。而AI换脸检测需要大量的原始目标人脸以及替换后的人脸数据,因此,研究团队必须花费时间和巨大成本创建合规的数据集。
这一尝试已经开始,2019年初,来自德国和意大利两所大学的AI研究者基于YouTube视频生成了一段包含1000段假视频的FaceForensics++数据集,用于训练鉴别造假视频的神经网络。9月底,谷歌宣布开源的包含3000段真假视频的大型 Deepfakes 数据集,纳入FaceForensics基准当中,供研究社区免费获取并用于开发合成视频检测方法。
面对当前这两种技术困境,AI研究者有哪些方法可以应对呢?
釜底抽薪与饱和攻击:
AI换脸检测解题新思路
近日,来自中国的两个研究团队给出了不同的解决以上技术困境的解决方案。一种方案类似釜底抽薪,即针对AI换脸的底层逻辑去开发新的算法,即使不需要更多的数据,也能取得很好的验证效果。另一种解决方案则类似饱和攻击,他们从现有的数据集为基础,将数据集扩充到一个新的更大规模、更高质量的程度,从而应对更多样化的人脸造假视频的检测。
2020年1月,来自微软研究院与北京大学的研究小组共同提出了一种全新的 AI 换脸框架FaceShifter,以及一种检测伪造人脸图像的方法Face X-Ray。前者可以极大提高换脸的高保真度,而后者则用于检测出复杂伪造人脸图像。
FaceShifter生成的高保真度换脸图像,可以很好保留目标人脸的头部姿态、面部表情、光线、颜色、强度、背景以及其他遮挡物。其优势之处在于该模型无需人工标注数据的训练下即可生成任何人脸。
简单来说,FaceShifter与之前的AI换脸方法相比,效果表现更优异。那这意味着,研究者同时提出的人脸造假的检测工具必须更加强悍。
为此,Face X-ray提出了一种全新的人脸伪造的图像检测方法。它通过显示伪造图像的混合边界和真实图像没有混合来实现是否存在造假的检测。这一方法就像是给被检测的图像拍摄了一张X光片一样,让其混合轮廓显露原型。
同时,相较于之前有监督的人脸检测方法会存在过度拟合的问题,Face X-Ray不需要依赖于与特定人脸操作技术相关的伪造图像的知识。由于是无监督训练,它的算法可以支持在不使用任何方法生成假图像知识的情况下进行训练。因此,它可以从更通用性的意义上来进行有效检测。
Face X-Ray在人脸造假的图像检测上采取了一种更根本的解决问题的思路,即我们与其知道一个图像是如何造假,不如知道一个图像如何才是真的。Face X-Ray的解题逻辑就是:真图像不会合成。
但可以预见的是AI换脸的技术演化也不会停步。比如说,AI换脸本身不再是A、B两个面部图像的混合叠加,而就是人脸生成算法基于A、B面部特征的直接生成新的一张面孔C。这样Face X-Ray也面临失效的严峻考验。
紧接着,商汤科技也加入这场攻防赛,他们则采用了类似饱和攻击的战术。据报道,商汤联手新加坡南洋理工,推出了迄今为止最大的Deepfakes检测数据集,DeeperForensics-1.0。该数据集包含60000个视频,是现有同类数据集的10倍。
研究者意识到,之前数据集中的视频存在着数量少、质量低以及过于人为化的特点;同时在一些假视频检测中,训练视频和测试视频存在高度相似性,这些让人脸造假检测的实际效力有待检验。所以,他们提出的解决方案就是提供一个尽可能包含了潜在变化的真实世界详尽可能的数据集,用于增强人脸造假检测模型的打造。当然,最终结果也验证了质量好、数据量大、多样性高的数据集可以明显提高视频人脸伪造的基准测试结果。
在这个信奉暴力计算的时代,商汤实力演绎了一次“大力出奇迹”的策略,用饱和攻击的方式去迎战Deepfakes层出不穷的狡计,而这一工作确实给后面的研究者提供了研究的便利。
目前,AI换脸的检测技术仍是少数研究机构的实验品。但随着AI换脸技术的日臻完善,社交媒体以及众多互联网平台如何利用AI检测工具做好换脸图像以及假视频的甄别,已经是迫在眉睫的事情。
被技术重塑的未来:
反Deepfakes的商业化可能
AI换脸带来的技术挑战,除了以上AI研究机构和研究者的努力,还需要更多利益相关方的参与和支持。
正如同这场“对抗赛”并非来自实验室中华山论剑,背后还有像Facebook、Twitter、YouTube、这类平台型机构,作为支持者和主导者。比如,去年9月,Facebook宣布启动一项“Deepfakes视频检测挑战赛”(DFDC),悬赏1000万美元以期找到有效检测利用Deepfakes技术生成的假视频的方案。大赛提供一个数据集和排行榜,通过拨款和奖励方式以刺激行业创造新的检测工具,从而防止被AI操纵的媒体误导普通用户。这无疑给中小AI研究机构很大的鼓励和资金支持。
要说其背后原因,自然是因为社交媒体是造假视频传播的主要阵地,也是放大其不良影响的重要因素。人们常说造谣一张嘴、辟谣跑断腿,当Deepfakes制造的虚假视频在Facebook、Twitter上疯狂传播时,就已经造成了不可挽回的损失。而苦主想要追责时,第一步要做的就是问责平台方。为了保证平台上内容的真实可控,社交媒体企业必然要找到Deepfakes视频的甄别方式。
因为Deepfakes带来的负面效应与名人政客、社交媒体平台有着切实的利益关联,所以Deepfakes检测技术也有着很明晰的商业前景。例如在未来,社交媒体采购Deepfakes甄别技术,将其加入平台视频发布审核流程当中,很可能会成为一种常态。同时面对假视频泛滥的情况,或许还有可能出现权威的“视频检验机构”,帮助受害者证实视频的真假。
更重要的是,AI换脸代表的造假技术的狂潮不可逆转,我们也必须学会更好地适应这一趋势。就像PS的普及让我们对图像的造假已经基本免疫一样,AI造假视频的普及也会让人们逐渐适应,只不过,对于大多数人而言,需要付出的学习成本和认知转变的成本有些高昂。在这一过程中,不论是技术开发者还是传播平台,都有责任向用户进行宣教。
当“眼见为实”的边界真正被打破,我们看待世界的规则需要重新被塑造。首先,向大众普及Deepfake这项技术也变得非常重要。就如同身体对抗病毒的最好方式,就是通过注射疫苗先增强身体的抵抗力。其次,当人们意识到眼见的一切视频都有可能为假的时候,人们又可能会更重视有公信力和权威性的媒体信息平台。
这也许是“眼见为假”时代带给人们的更多的文明副产品之一。