【论文阅读】CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image Steganography

最新推荐文章于 2025-04-30 20:09:44 发布

小南的学习笔记

最新推荐文章于 2025-04-30 20:09:44 发布

阅读量1.1k

点赞数 10

分类专栏：论文阅读文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_57315305/article/details/144593096

版权

论文介绍

论文标题：CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image Steganography （交叉扩散模型实现了图像隐写的可控、鲁棒和安全）

作者：Jiwen Yu、Xuanyu Zhang、Youmin Xu 、Jian Zhang

等级： Advances in Neural Information Processing Systems（ NeurIPS 顶会）

发表时间：2023-12-15

关键字：

阅读目的：了解扩散模型在图像隐写中的应用

阅读方式：精读

摘要

主要工作： 提出了一种新颖的图像隐写框架，称为可控、鲁棒和安全图像隐写 (CRoSS)，与基于封面的图像隐写方法相比，它在可控性、鲁棒性和安全性方面具有显著优势。这些好处无需额外训练即可获得。据我们所知，这是首次将扩散模型引入图像隐写领域的工作。代码可在 https://github.com/vvictoryuki/CRoSS 上找到。

**传统方法的不足：**目前的图像隐写技术主要集中在基于封面的方法上，这些方法通常存在泄露秘密图像的风险，并且对退化的容器图像的鲁棒性较差。

引言

随着数字通信和人工智能生成内容（AIGC）的迅猛发展，数据隐私和安全问题愈发重要。隐写术作为一项研究热点，通过在图像等载体中隐藏信息，实现隐秘通信。传统图像隐写术通常采用基于覆盖图像的方法，例如利用空间域或自适应域隐藏信息。然而，这些方法面临以下局限性：

信息泄露风险：覆盖图像可能包含明显的伪影或局部细节，容易暴露隐藏信息。
鲁棒性不足：在真实环境中，噪声、压缩或非线性变换会显著降低隐写术的性能。
可控性欠缺：现有无覆盖隐写方法在生成载体图像时缺乏用户控制能力，且多仅限于隐藏简单的二进制信息，而无法处理更复杂的图像隐写任务。

近期的研究表明，基于扩散模型的生成方法在图像生成、去噪和翻译等任务中表现优异，具备强大的控制能力和对噪声的天然鲁棒性。这些特性恰好与图像隐写术的目标高度契合。基于此，本文提出了一种全新的隐写框架——可控、安全、鲁棒的隐写术（CRoSS），通过使用扩散模型实现图像间的可逆翻译，无需额外训练模型。

本文的主要贡献包括：

提出通过扩散模型无缝集成图像隐写术，显著提升其安全性、控制性和鲁棒性；
开发了基于扩散模型的新型隐写框架CRoSS，这是首次在隐写领域引入扩散模型；
结合开源社区的最新工具（如LoRAs和ControlNets），增强了载体图像的多样性和生成控制能力；
通过全面实验，验证了CRoSS在隐写性能上的显著优势。

相关工作

隐写方法

基于封面的图像隐写术

介绍了传统隐写方法和

空间域方法

利用图像的像素值直接嵌入数据，是传统隐写术的重要方向：

最低有效位（LSB）替换：通过修改图像像素的最低有效位嵌入信息。
像素值差分（PVD）：通过分析像素间的差值来嵌入数据。
直方图平移：利用直方图的统计特性进行隐写。

局限性：这些方法可能引发统计特征异常，容易被检测出，模型上通常依赖于基本的编码和嵌入策略。

自适应方法*

将隐写分解为嵌入失真最小化和数据编码两个阶段：

最小失真嵌入：生成嵌入代价函数，选择最不显眼的位置嵌入数据。
- 模型：基于像素预测或图像特征的代价函数生成方法，例如高维图像模型【Pevný et al., 2010】。
自适应域变换：通过数据编码策略提升隐匿性，例如基于空域到频域的自适应变换。

局限性：隐写容量有限，难以承载复杂数据。

变换域方法

利用频域特征实现信息嵌入，能够提升鲁棒性：

离散余弦变换（DCT）隐写术：通过修改DCT系数嵌入数据。
离散小波变换（DWT）隐写术：通过在小波变换域修改系数进行隐写。
JSteg：最早的JPEG隐写方法，通过修改JPEG压缩的量化系数实现隐写。

局限性：尽管提升了抗干扰性，但在嵌入容量和安全性方面仍存在不足。

深度学习驱动的方法

近年来，深度学习在图像隐写术中逐渐占据主导地位：

自动编码器网络（Auto-encoders）：
- 模型：Baluja (2017) 提出的端到端隐写网络，将整幅图像嵌入到另一幅图像中。
- 特点：无需人工设计特征，直接学习嵌入和重建过程。
生成对抗网络（GANs）：
- 模型：SteganoGAN (Zhang et al., 2019)，通过生成网络生成容器图像，并对抗分析网络提升隐匿性。
- 特点：提升了容器图像的自然性与不可检测性。
可逆神经网络（INN）：
- 模型：HiNet (Jing et al., 2021) 和 RIIS (Xu et al., 2022)，将信息嵌入和恢复任务集成到单一的可逆网络中。
- 特点：具备良好的重建性能和数据嵌入能力。

无封面隐写

无封面隐写术是信息隐藏领域的一种新兴技术，旨在将秘密信息嵌入介质中而不修改封面对象，现有的无封面隐写术仍然侧重于将比特藏到容器图像中。

扩散模型

基本原理

扩散模型由两个阶段构成：

正向扩散过程（Forward Process）：逐步向干净图像添加噪声，生成一系列的噪声图像。
逆向采样过程（Backward Sampling）：从噪声图像开始，逐步去噪，恢复目标图像。

在扩散过程中：

使用固定的噪声添加公式将图像转换为标准高斯噪声。
使用预训练的噪声估计器（noise estimator）进行逆向推理。

模型示例：Denoising Diffusion Probabilistic Models (DDPM)【Ho et al., 2020】和Denoising Diffusion Implicit Models (DDIM)【Song et al., 2021】。

扩散模型的特性

扩散模型具有多种独特的属性，使其适用于图像隐写任务：

零样本任务能力（Zero-shot Capability）：
- 在未训练的情况下执行图像生成、修复或翻译任务。
- 示例：Score-based Models【Song et al., 2019】。
强大的生成控制能力（Controllability）：
- 条件扩散模型（Conditional Diffusion Models）通过控制条件（如文本、深度图等）生成多样化的图像。
- 示例：Stable Diffusion【Rombach et al., 2022】。
对噪声的天然鲁棒性（Robustness to Noise）：
- 模型本质上是高斯去噪器，对图像噪声和扰动具有天然的鲁棒性。
- 示例：Denoising Diffusion Restoration Models (DDRM)【Kawar et al., 2022】。
图像翻译能力（Image-to-Image Translation）：
- 通过条件控制将一幅图像转换为另一幅图像，支持可逆翻译。
- 示例：Cycle Diffusion【Su et al., 2023】。