多模态深度伪造

随着深度学习技术的飞速发展以及在各个领域 的广泛应用,深度学习技术在视频以及图片的伪造 编辑方面的应用也逐渐被人熟知,从早年 ZAO APP 提供的低成本换脸视频编辑服务导致相关视频在视 频社交网络上风靡一时,到现在其在教育,人机交互 和艺术创作等领域中的广泛应用前景,深度伪造 (deepfake)技术的应用在当前有一定的影响力,但是 其具有不良目的的应用造成的负面影响远大于其积 极影响. 2020 年 7 月,麻省理工学院发布了一条尼克 松宣布登月失败演讲的深度伪造视频,在视频中尼 克松的面部表情以及语音都得到了还原,内容可以 做到以假乱真的效果. 一些恶意用户可能会利用相 关技术伪造政客,明星等公众人物的虚假视频内容, 从而扩散谣言,引导舆论由此获利,同时伪造的视频 可能在刑侦取证方面造成阻碍. 

由于其较为严重的负面影响,社会各界已经开 始采取相应的防护对策. 为了防止针对政治人物的 伪造视频对国家安全造成影响,各国政府已经开始 促进相关行业标准和法律的制定. 同时,Youtube 和 Tiktok 等互联网公司也已经开始着手管制深度伪造 视频,并举行了多次伪造视频检测比赛. 在学术界, 研究者们针对深度伪造提出了适用于多种场景的大 量检测技术,作为深度伪造的技术治理手段. 针对近 年来出现的伪造技术和检测技术,该文系统地考虑了不同模态信息的深度伪造及检测技术,同时 也介绍了深度伪造生成及检测模型的对抗攻击方法.

1 技术背景 

1.1 深度伪造生成技术 

因为深度伪造生成的各种技术之间存在一定的 共通性,因此本节对深度伪造生成技术的生成模型 进行总结,并介绍深度伪造技术中人脸伪造技术和 语音伪造技术的基本步骤

1.1.1 人脸伪造生成技术 

针对人脸的深度伪造的生成技术一般包含 4 个 步骤:1)使用人脸识别算法检测目标图片中的人脸;2)裁剪并预处理目标图片中的人脸;3)提取人脸中 的身份和表情信息,并通过生成模型生成伪造人脸;4)将生成的人脸渲染到目标图像中人脸位置,重建 图像.

1.1.2 语音伪造生成技术 

针对语音模态的深度伪造技术一般需要音频和文字输入,用于指定目标语音的内容和音色. 语音伪 造技术一般包含 4 个步骤:1)如果该方法接受文本 输入,则将其编码;2)提取输入音频的梅尔倒谱系数 (mel-frequency cepstral coefficients,MFCCs);3)将预处 理后的数据输入生成模型,得到目标语音的帧级语 音特征;4)通过声码器等方式得到目标语音

1.2 深度伪造分类 

目前深度伪造在多媒体文件的合成和篡改中主 要是针对在图片和视频中的面部和肢体动作的篡改 以及语音方面的修改. 面部篡改主要分为 2 类:1)使 用源图片人物身份替换目标图片人物身份的方法, 主要包括面部替换和面部转换 2 种 ;2)保留目标图 片人物身份的方法,包括面部重现和面部特征编辑. 以下分别对这 4 种分类进行介绍.

1)面部替换(face swap). 通过将源图片的人脸身 份信息注入目标图片完成换脸,同时保留目标图片 中的表情动作和背景等信息. 

2)面部转换(face transfer). 将目标图片中的人脸 完全替换为源图片的人脸,包含身份信息、表情动作 和面部朝向等. 

3)面部重现(face reenactment). 不改变目标图片 中的人脸身份,将源图片中的人脸表情动作在目标 图片上重现. 重现的部分包括表情、嘴型,面部朝向 甚至是肢体动作. 

4)面部特征编辑(face edit). 不改变人脸身份信 息,对人脸中的部分特征属性进行篡改,如发色、性 别、是否佩戴眼镜等. 语音方面的深度伪造任务主要分为语音转换和 语音合成 2 类. 

1)语音转换(voice conversion). 转变输入音频的 音色到目标人物的音色. 

2)语音合成(text to speech). 根据输入文本,输出 相应音频.

1.3 深度伪造检测技术 

1)卷 积 神 经 网 络 (convolutional  neural  network, CNN). 卷积神经网络除了在风格迁移方面的应用, 更多的用于图像分类和目标检测中. 卷积神经网络 在传统全连接网络的基础上主要增加了卷积层和池 化层. 后续出现的卷积神经网络架构有 DenseNet[9] , ResNet[10] 和基于深度可分离卷积层的 Xception[11] 等, 而 XceptionNet[12] 也是深度伪造检测中常用的基础 方法. 2)循环神经网络(recurrent neural network,RNN). 循环神经网络常用于处理时间序列性的信息,相比一般的前馈神经网络, 循环神经网络能更好地处理序列变化的数据,并记 录过去状态对当前状态的影响. 长短期记忆网络 (long short-term memory,LSTM)是一种特殊的循环神 经网络,包含 2 种传递状态,能够更好地解决循环神 经网络的梯度消失和梯度爆炸问题.

来源:多模态深度伪造及检测技术综述(计算机研究与发展)

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值