多模态深度伪造

最新推荐文章于 2024-09-24 10:41:31 发布

夏尔Gaesar

最新推荐文章于 2024-09-24 10:41:31 发布

阅读量526

点赞数

文章标签：人工智能

原文链接：https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202111119

版权

深度伪造技术在视频和图片编辑中广泛应用，如人脸替换和语音转换，但其潜在的负面影响，如制造虚假信息和影响舆论，引发了关注。学术界和业界正在通过开发检测技术、制定法规和平台管控来应对这一问题。例如，使用CNN和RNN等神经网络进行伪造检测，并有研究聚焦于对抗性训练增强检测能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随着深度学习技术的飞速发展以及在各个领域的广泛应用，深度学习技术在视频以及图片的伪造编辑方面的应用也逐渐被人熟知，从早年 ZAO APP 提供的低成本换脸视频编辑服务导致相关视频在视频社交网络上风靡一时，到现在其在教育，人机交互和艺术创作等领域中的广泛应用前景，深度伪造（deepfake）技术的应用在当前有一定的影响力，但是其具有不良目的的应用造成的负面影响远大于其积极影响. 2020 年 7 月，麻省理工学院发布了一条尼克松宣布登月失败演讲的深度伪造视频，在视频中尼克松的面部表情以及语音都得到了还原，内容可以做到以假乱真的效果. 一些恶意用户可能会利用相关技术伪造政客，明星等公众人物的虚假视频内容，从而扩散谣言，引导舆论由此获利，同时伪造的视频可能在刑侦取证方面造成阻碍.

由于其较为严重的负面影响，社会各界已经开始采取相应的防护对策. 为了防止针对政治人物的伪造视频对国家安全造成影响，各国政府已经开始促进相关行业标准和法律的制定. 同时，Youtube 和 Tiktok 等互联网公司也已经开始着手管制深度伪造视频，并举行了多次伪造视频检测比赛. 在学术界，研究者们针对深度伪造提出了适用于多种场景的大量检测技术，作为深度伪造的技术治理手段. 针对近年来出现的伪造技术和检测技术，该文系统地考虑了不同模态信息的深度伪造及检测技术，同时也介绍了深度伪造生成及检测模型的对抗攻击方法.

1 技术背景

1.1 深度伪造生成技术

因为深度伪造生成的各种技术之间存在一定的共通性，因此本节对深度伪造生成技术的生成模型进行总结，并介绍深度伪造技术中人脸伪造技术和语音伪造技术的基本步骤

1.1.1 人脸伪造生成技术

针对人脸的深度伪造的生成技术一般包含 4 个步骤：1）使用人脸识别算法检测目标图片中的人脸；2）裁剪并预处理目标图片中的人脸；3）提取人脸中的身份和表情信息，并通过生成模型生成伪造人脸；4）将生成的人脸渲染到目标图像中人脸位置，重建图像.

1.1.2　语音伪造生成技术

针对语音模态的深度伪造技术一般需要音频和文字输入，用于指定目标语音的内容和音色. 语音伪造技术一般包含 4 个步骤：1）如果该方法接受文本输入，则将其编码；2）提取输入音频的梅尔倒谱系数（mel-frequency cepstral coefficients，MFCCs）；3）将预处理后的数据输入生成模型，得到目标语音的帧级语音特征；4）通过声码器等方式得到目标语音

1.2　深度伪造分类

目前深度伪造在多媒体文件的合成和篡改中主要是针对在图片和视频中的面部和肢体动作的篡改以及语音方面的修改. 面部篡改主要分为 2 类：1）使用源图片人物身份替换目标图片人物身份的方法，主要包括面部替换和面部转换 2 种；2）保留目标图片人物身份的方法，包括面部重现和面部特征编辑. 以下分别对这 4 种分类进行介绍.

1）面部替换（face swap）. 通过将源图片的人脸身份信息注入目标图片完成换脸，同时保留目标图片中的表情动作和背景等信息.

2）面部转换（face transfer）. 将目标图片中的人脸完全替换为源图片的人脸，包含身份信息、表情动作和面部朝向等.

3）面部重现（face reenactment）. 不改变目标图片中的人脸身份，将源图片中的人脸表情动作在目标图片上重现. 重现的部分包括表情、嘴型，面部朝向甚至是肢体动作.

4）面部特征编辑（face edit）. 不改变人脸身份信息，对人脸中的部分特征属性进行篡改，如发色、性别、是否佩戴眼镜等. 语音方面的深度伪造任务主要分为语音转换和语音合成 2 类.

1）语音转换（voice conversion）. 转变输入音频的音色到目标人物的音色.

2）语音合成（text to speech）. 根据输入文本，输出相应音频.

1.3　深度伪造检测技术

1）卷积神经网络（convolutional neural network， CNN）. 卷积神经网络除了在风格迁移方面的应用，更多的用于图像分类和目标检测中. 卷积神经网络在传统全连接网络的基础上主要增加了卷积层和池化层. 后续出现的卷积神经网络架构有 DenseNet[9] ， ResNet[10] 和基于深度可分离卷积层的 Xception[11] 等，而 XceptionNet[12] 也是深度伪造检测中常用的基础方法. 2）循环神经网络（recurrent neural network，RNN）. 循环神经网络常用于处理时间序列性的信息，相比一般的前馈神经网络，循环神经网络能更好地处理序列变化的数据，并记录过去状态对当前状态的影响. 长短期记忆网络（long short-term memory，LSTM）是一种特殊的循环神经网络，包含 2 种传递状态，能够更好地解决循环神经网络的梯度消失和梯度爆炸问题.

来源：多模态深度伪造及检测技术综述（计算机研究与发展）