论文研读|生成式跨模态隐写发展综述

前言:本文介绍近5年来生成式跨模态隐写领域的相关工作。

相关阅读:生成式文本隐写发展综述

不同于文本隐写,跨模态隐写需要考虑不同模态间的相关性,常见的跨模态场景有:Image-to-Text(如图像描述), Text-to-Speech(如语音助手), Text-to-Image(如按文作画)等。下面对基于深度学习的生成式跨模态隐写相关工作进行介绍。

[1]- 基于图像描述的文本信息隐藏 (北京邮电大学学报,2018) BUPT, Xue et al.

在这里插入图片描述

  • 主要思想:采用CNN+LSTM框架,通过对基于Beam Search 的搜索方法进行改动。首先在密文首部加入16bit信息表示密文长度,然后根据不同的接收方共享场景分别设计了
    • 基于句子的隐藏算法(SSH):使用 Beam Search,在所有单词生成完毕之后,通过对 2 n 2^{n} 2n个候选句等长编码,在最终句的选取过程中嵌入秘密信息;
    • 基于单词的隐藏算法(WWH):Beam 长度为1时,Beam Search 退化为贪婪搜索。在每个时间步生成单词时,固定候选词集为2,密文为1则选择较大概率的词,密文为2则选择较小概率的词。
    • 基于散列函数的隐藏算法(HH):通过下述公式将每个单词对应1bit的秘密信息,这种方法根据文本即可提取秘密信息。
      v ( w , k e y ) = ( m d 5 ( w + k e y ) ) m o d 2 v(w,key) = (md5(w+key)) mod 2 v(w,key)=(md5(w+key))mod2
  • 数据集:Flicker8k
  • 评价指标:嵌入容量:bpw;语义相关性:BLEU-N

[2]- Rits: real-time interactive text steganography based on automatic dialogue model (ICCCS, 2018) Tshinghua University, Yang et al.

在这里插入图片描述

这篇文章虽然不是跨模态的文章,但它指出生成的隐写文本应具备认知不可感知性,即:其语义应与上下文的语义相关,这一观点在跨模态文本隐写领域同样适用。

  • 主要思想:针对对话场景,使用RNN+强化学习,使用基于完全二叉树的定长编码嵌入秘密信息。
  • 数据集:对话数据集 negotiator
  • 评价指标:效率:time

[3]- Steganographic visual story with mutual-perceived joint attention (EURASIP, 2021) Shanghai University, Guo et al.

在这里插入图片描述

  • 主要思想:本文提出概率分布方差在一定范围之内才能保证认知不可感知性,设计了一种自适应候选词集的信息嵌入和提取方法。
  • 数据集:VIST
  • 评价指标:视觉不可感知性:Perplexity;认知不可感知性:BLEU&METEOR

[4]- ICStega: Image Captioning-based Semantically Controllable Linguistic Steganography (ICASSP, 2023) USTC, Wang et al.

在这里插入图片描述

  • 主要思想:本文主要提出一个基于语义控制的候选词集构建方法
  • 数据集: MS COCO
  • 评价指标:嵌入量:bpw;视觉不可感知性:Perplexity;安全性:抗隐写分析能力 TS-FCN;认知不可感知性:BLEU&METEOR;多样性:LSA&Self-CIDEr

[5]- Cross-Modal Text Steganography Against Synonym Substitution-Based Text Attack (SPL, 2023) Fudan University, Peng et al.

在这里插入图片描述

[6]- Cover Reproducible Steganography via Deep Generative Models (TDSC, 2022) USTC, Chen et al.

在这里插入图片描述

  • 应用场景:Text-to-Speech;Text-to-Image

[7]- Distribution-Preserving Steganography Based on Text-to-Speech Generative Models (TDSC, 2022) USTC, Chen et al.

在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
多头模态注意力机制是指在多模态处理中使用的一种注意力机制,它可以捕捉和整合不同模态之间的相关信息。在模块设计中,首先将不同模态的表示纳入自注意力模块,以捕捉每个模态内部的互动。然后将输出状态输入交叉注意力模块,以捕捉不同模态之间的互动。在这个机制中,使用了多头自注意力操作(ATTself)来处理同一模态内部的信息,使用了模态多头注意力(ATTcross)来处理不同模态之间的信息。具体来说,模态多头注意力会使用一个模态的Q(查询)矩阵和另一个模态的K(键)和V(值)矩阵进行注意力计算。这种模态注意力机制可以帮助模型更好地理解和整合多种模态的信息,从而提高多模态任务的性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [研读Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal](https://blog.csdn.net/weixin_42776344/article/details/127867468)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [论文浅尝 - EMNLP2020 | 媒体关键词预测: 多模态多头注意力和图像文本的统一框架...](https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/111713643)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值