论文介绍
论文标题:CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image Steganography (交叉扩散模型实现了图像隐写的可控、鲁棒和安全)
作者:Jiwen Yu、Xuanyu Zhang、Youmin Xu 、Jian Zhang
等级: Advances in Neural Information Processing Systems( NeurIPS 顶会)
发表时间:2023-12-15
关键字:
阅读目的:了解扩散模型在图像隐写中的应用
阅读方式:精读
摘要
主要工作: 提出了一种新颖的图像隐写框架,称为可控、鲁棒和安全图像隐写 (CRoSS),与基于封面的图像隐写方法相比,它在可控性、鲁棒性和安全性方面具有显著优势。这些好处无需额外训练即可获得。据我们所知,这是首次将扩散模型引入图像隐写领域的工作。代码可在 https://github.com/vvictoryuki/CRoSS 上找到。
**传统方法的不足:**目前的图像隐写技术主要集中在基于封面的方法上,这些方法通常存在泄露秘密图像的风险,并且对退化的容器图像的鲁棒性较差。
引言
随着数字通信和人工智能生成内容(AIGC)的迅猛发展,数据隐私和安全问题愈发重要。隐写术作为一项研究热点,通过在图像等载体中隐藏信息,实现隐秘通信。传统图像隐写术通常采用基于覆盖图像的方法,例如利用空间域或自适应域隐藏信息。然而,这些方法面临以下局限性:
- 信息泄露风险:覆盖图像可能包含明显的伪影或局部细节,容易暴露隐藏信息。
- 鲁棒性不足:在真实环境中,噪声、压缩或非线性变换会显著降低隐写术的性能。
- 可控性欠缺:现有无覆盖隐写方法在生成载体图像时缺乏用户控制能力,且多仅限于隐藏简单的二进制信息,而无法处理更复杂的图像隐写任务。
近期的研究表明,基于扩散模型的生成方法在图像生成、去噪和翻译等任务中表现优异,具备强大的控制能力和对噪声的天然鲁棒性。这些特性恰好与图像隐写术的目标高度契合。基于此,本文提出了一种全新的隐写框架——可控、安全、鲁棒的隐写术(CRoSS),通过使用扩散模型实现图像间的可逆翻译,无需额外训练模型。
本文的主要贡献包括:
- 提出通过扩散模型无缝集成图像隐写术,显著提升其安全性、控制性和鲁棒性;
- 开发了基于扩散模型的新型隐写框架CRoSS,这是首次在隐写领域引入扩散模型;
- 结合开源社区的最新工具(如LoRAs和ControlNets),增强了载体图像的多样性和生成控制能力;
- 通过全面实验,验证了CRoSS在隐写性能上的显著优势。
相关工作
隐写方法
基于封面的图像隐写术
介绍了传统隐写方法和
空间域方法
利用图像的像素值直接嵌入数据,是传统隐写术的重要方向:
- 最低有效位(LSB)替换:通过修改图像像素的最低有效位嵌入信息。
- 像素值差分(PVD):通过分析像素间的差值来嵌入数据。
- 直方图平移:利用直方图的统计特性进行隐写。
局限性:这些方法可能引发统计特征异常,容易被检测出,模型上通常依赖于基本的编码和嵌入策略。
自适应方法*
将隐写分解为嵌入失真最小化和数据编码两个阶段:
- 最小失真嵌入:生成嵌入代价函数,选择最不显眼的位置嵌入数据。
- 模型:基于像素预测或图像特征的代价函数生成方法,例如高维图像模型【Pevný et al., 2010】。
- 自适应域变换:通过数据编码策略提升隐匿性,例如基于空域到频域的自适应变换。
局限性:隐写容量有限,难以承载复杂数据。
变换域方法
利用频域特征实现信息嵌入,能够提升鲁棒性:
- 离散余弦变换(DCT)隐写术:通过修改DCT系数嵌入数据。
- 离散小波变换(DWT)隐写术:通过在小波变换域修改系数进行隐写。
- JSteg:最早的JPEG隐写方法,通过修改JPEG压缩的量化系数实现隐写。
局限性:尽管提升了抗干扰性,但在嵌入容量和安全性方面仍存在不足。
深度学习驱动的方法
近年来,深度学习在图像隐写术中逐渐占据主导地位:
- 自动编码器网络(Auto-encoders):
- 模型:Baluja (2017) 提出的端到端隐写网络,将整幅图像嵌入到另一幅图像中。
- 特点:无需人工设计特征,直接学习嵌入和重建过程。
- 生成对抗网络(GANs):
- 模型:SteganoGAN (Zhang et al., 2019),通过生成网络生成容器图像,并对抗分析网络提升隐匿性。
- 特点:提升了容器图像的自然性与不可检测性。
- 可逆神经网络(INN):
- 模型:HiNet (Jing et al., 2021) 和 RIIS (Xu et al., 2022),将信息嵌入和恢复任务集成到单一的可逆网络中。
- 特点:具备良好的重建性能和数据嵌入能力。
无封面隐写
无封面隐写术是信息隐藏领域的一种新兴技术,旨在将秘密信息嵌入介质中而不修改封面对象,现有的无封面隐写术仍然侧重于将比特藏到容器图像中。
扩散模型
基本原理
扩散模型由两个阶段构成:
- 正向扩散过程(Forward Process):逐步向干净图像添加噪声,生成一系列的噪声图像。
- 逆向采样过程(Backward Sampling):从噪声图像开始,逐步去噪,恢复目标图像。
在扩散过程中:
- 使用固定的噪声添加公式将图像转换为标准高斯噪声。
- 使用预训练的噪声估计器(noise estimator)进行逆向推理。
模型示例:Denoising Diffusion Probabilistic Models (DDPM)【Ho et al., 2020】和Denoising Diffusion Implicit Models (DDIM)【Song et al., 2021】。
扩散模型的特性
扩散模型具有多种独特的属性,使其适用于图像隐写任务:
- 零样本任务能力(Zero-shot Capability):
- 在未训练的情况下执行图像生成、修复或翻译任务。
- 示例:Score-based Models【Song et al., 2019】。
- 强大的生成控制能力(Controllability):
- 条件扩散模型(Conditional Diffusion Models)通过控制条件(如文本、深度图等)生成多样化的图像。
- 示例:Stable Diffusion【Rombach et al., 2022】。
- 对噪声的天然鲁棒性(Robustness to Noise):
- 模型本质上是高斯去噪器,对图像噪声和扰动具有天然的鲁棒性。
- 示例:Denoising Diffusion Restoration Models (DDRM)【Kawar et al., 2022】。
- 图像翻译能力(Image-to-Image Translation):
- 通过条件控制将一幅图像转换为另一幅图像,支持可逆翻译。
- 示例:Cycle Diffusion【Su et al., 2023】。
稳定扩散社区的贡献
扩散模型社区(如Stable Diffusion)提供了丰富的开源工具和模型: