论文研读｜生成式跨模态隐写发展综述

_Meilinger_

已于 2023-09-18 12:49:21 修改

阅读量980

点赞数 1

分类专栏：文本隐写论文研读文章标签：生成式隐写跨模态隐写 Steganography Image Text Speech

于 2023-09-04 13:51:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36332660/article/details/132625269

版权

论文研读同时被 2 个专栏收录

40 篇文章

订阅专栏

6 篇文章

订阅专栏

前言：本文介绍近5年来生成式跨模态隐写领域的相关工作。

相关阅读：生成式文本隐写发展综述

不同于文本隐写，跨模态隐写需要考虑不同模态间的相关性，常见的跨模态场景有：Image-to-Text（如图像描述）, Text-to-Speech（如语音助手）, Text-to-Image（如按文作画）等。下面对基于深度学习的生成式跨模态隐写相关工作进行介绍。

[1]- 基于图像描述的文本信息隐藏 (北京邮电大学学报，2018) BUPT, Xue et al.

在这里插入图片描述

主要思想：采用CNN+LSTM框架，通过对基于Beam Search 的搜索方法进行改动。首先在密文首部加入16bit信息表示密文长度，然后根据不同的接收方共享场景分别设计了
- 基于句子的隐藏算法（SSH）：使用 Beam Search，在所有单词生成完毕之后，通过对 $2^{n}$ 个候选句等长编码，在最终句的选取过程中嵌入秘密信息；
- 基于单词的隐藏算法（WWH）：Beam 长度为1时，Beam Search 退化为贪婪搜索。在每个时间步生成单词时，固定候选词集为2，密文为1则选择较大概率的词，密文为2则选择较小概率的词。
- 基于散列函数的隐藏算法（HH）：通过下述公式将每个单词对应1bit的秘密信息，这种方法根据文本即可提取秘密信息。
  $v (w, k ey) = (m d 5 (w + k ey)) m o d 2$
数据集：Flicker8k
评价指标：嵌入容量：bpw；语义相关性：BLEU-N

[2]- Rits: real-time interactive text steganography based on automatic dialogue model (ICCCS, 2018) Tshinghua University, Yang et al.

在这里插入图片描述

这篇文章虽然不是跨模态的文章，但它指出生成的隐写文本应具备认知不可感知性，即：其语义应与上下文的语义相关，这一观点在跨模态文本隐写领域同样适用。

主要思想：针对对话场景，使用RNN+强化学习，使用基于完全二叉树的定长编码嵌入秘密信息。
数据集：对话数据集 negotiator
评价指标：效率：time

[3]- Steganographic visual story with mutual-perceived joint attention (EURASIP, 2021) Shanghai University, Guo et al.

在这里插入图片描述

主要思想：本文提出概率分布方差在一定范围之内才能保证认知不可感知性，设计了一种自适应候选词集的信息嵌入和提取方法。
数据集：VIST
评价指标：视觉不可感知性：Perplexity；认知不可感知性：BLEU&METEOR

[4]- ICStega: Image Captioning-based Semantically Controllable Linguistic Steganography (ICASSP, 2023) USTC, Wang et al.

在这里插入图片描述

主要思想：本文主要提出一个基于语义控制的候选词集构建方法
数据集： MS COCO
评价指标：嵌入量：bpw；视觉不可感知性：Perplexity；安全性：抗隐写分析能力 TS-FCN；认知不可感知性：BLEU&METEOR；多样性：LSA&Self-CIDEr

[5]- Cross-Modal Text Steganography Against Synonym Substitution-Based Text Attack (SPL, 2023) Fudan University, Peng et al.

在这里插入图片描述

主要思想：抗同义词替换攻击，有损隐写，使用DNN编码秘密信息，在解码网络中解锁。
数据集：MS COCO
评价指标：统计不可感知性：KL散度；抗隐写分析能力：LS-CNN&R-BIC&SeSy&BERT-FT
开源代码：https://github.com/hunanpolly/Cross-Modal-Steganography

[6]- Cover Reproducible Steganography via Deep Generative Models (TDSC, 2022) USTC, Chen et al.

在这里插入图片描述

应用场景：Text-to-Speech；Text-to-Image

[7]- Distribution-Preserving Steganography Based on Text-to-Speech Generative Models (TDSC, 2022) USTC, Chen et al.

在这里插入图片描述

应用场景：Text-to-Speech
开源代码：https://github.com/coriverchen/ProvablySecureSteganography

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

_Meilinger_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。