文献综述｜文本隐写极简综述

最新推荐文章于 2024-03-29 22:09:11 发布

_Meilinger_

最新推荐文章于 2024-03-29 22:09:11 发布

阅读量1.1k

点赞数 3

分类专栏：文本隐写文章标签：文本隐写隐写术 NLP NLG 网络空间安全

原文链接：https://mp.weixin.qq.com/s/oJAx0yIt9u444z5eWA-Uig

版权

文本隐写专栏收录该内容

6 篇文章 0 订阅

订阅专栏

注：本文根据【极简综述23】文本隐写简述 (qq.com) 整理而成。

一、隐写术研究背景

隐写术（steganography）主要研究如何将秘密信息高效且安全地嵌入到其他信息载体中，掩盖信息的存在性从而保障其安全。该技术对于在个体层面保护民众隐私安全以及在国家层面保障国防安全都具有重大研究意义和价值。

在长期的历史发展中，隐写术随着人类通信方式的变革而逐步演化。根据不同时代通信方式的特点，清华大学黄永峰等人从载体形式、机密信息形式以及隐写的技术手段等方面，将隐写术的历史演变划分为三个时代：第一代是早期的物理载体隐写，其主要采用物理载体进行信息隐藏，秘密信息主要是语义表示形式，采用的隐藏方法主要是一些工艺技巧。第二代是当前主要研究的数字载体隐写，其主要采用单一的数字载体进行信息隐藏，秘密信息转化为比特表示形式，采用的方法主要是信号处理技术。第三代是随着技术的发展即将跨入的网络空间隐写，其以整个网络空间为隐藏载体，机密信息由第二代的比特表示转向语义表示，技术方式也由信号处理技术转向数据挖掘技术。

二、文本隐写的优势&挑战

在网络空间隐写时代，文本相比于图像、音频等其他数字载体同时具有独特的优势和挑战。优势主要体现在两方面：（1）文本是人类语言的符号化编码，其无论在过去以物理媒介为主的通信时代还是现今以数字媒介为主的通信时代都是人们进行信息交流的主要形式，其使用场景的广泛性和普遍性给文本隐写术带来了广阔的应用前景。（2）文本在网络空间传输时具有较强的鲁棒性。其他载体，例如数字图像，在利用公共网络信道进行传输时，通常会由于二次压缩产生一定程度的失真，这可能会导致其中包含的隐蔽信息遭到破坏。而文本在公共网络环境中传输时，几乎不会因为信道噪声造成信息丢失，因此能够使其包含的隐蔽信息保有足够强的抗干扰能力。

首先，语言在人类文明进化过程中发展出来的高度信息编码和低信息冗余特性，使其很难嵌入额外信息。其次，人们对语言的表达和理解是一种复杂的认知能力。因此不同于图像隐写术和音频隐写术，研究人员可以在人们对这类信号的感知不敏感的地方（例如图像和音频的最低有效位等）嵌入额外信息而不会引起监控方的注意。对于文本隐写，哪怕仅仅是对原始文本进行细微修改（例如修改一个字母等）也极有可能大幅度影响整个文本的语义表达，甚至导致整个句子不成立。因此，如何实现在文本中高效嵌入额外信息的同时又保证语义表达的完整性并有效抵抗第三方检测手段是个极具挑战的课题。

三、文本隐写的种类及特性

文本作为信息隐藏载体的早期例子是藏头诗，它通过巧妙的规则将需要表达的真实信息分别藏于诗词的不同语句之中，只有通过特定规则才能从诗词中正确提取出秘密信息。一战时，德国也曾利用一种叫 null-cipher 的方法传递情报信息，其需要按照特定的规则（例如以间隔为7或9逐次从文本中抽取相应词汇）才能从传递的文本中准确读取出嵌入其中的秘密信息。

现代文本隐写术根据秘密信息嵌入域的不同通常可以分为基于文本格式的隐写术和基于文本内容的隐写术。

3.1 基于文本格式的隐写术

基于文本格式的隐写术主要利用文本在不同类型文档（例如DOC、PDF等）中的组织、排版、呈现时的特定规则实现信息嵌入。例如，有部分研究人员尝试利用人眼感知系统对细节的分辨率误差，将文档中字符的行间距、字间距进行细微调整，或者增删不可见字符以嵌入隐蔽信息。另外还有部分研究人员尝试利用不同格式化文档中特定的属性和功能嵌入隐蔽信息。例如，针对PDF文档，有研究人员利用PDF文档中的闲置空间进行填充、对文档的定位操作符进行细微修改、增删文档中的对象树信息、编码并修改PDF文档中字符间的位置信息实现隐蔽信息嵌入。基于文档格式的隐写术通常具有较高的视觉隐蔽性。但是这类方法的使用场景具有一定的局限性，并且文字的重新录入、内容转移、格式变化都会造成隐蔽信息的破坏和丢失。

3.2 基于文本内容的隐写术

基于文本内容的隐写术，也称为语言隐写术（linguistic steganography），主要采用自然语言分析和处理手段，利用文本中的语言特征实现隐蔽信息嵌入。语言隐写术通常可以归纳为检索式、修改式和生成式三种隐写策略。

3.2.1 基于检索式的语言隐写术

基于检索式的语言隐写术通过对大规模文本库中的样本进行特殊编码，然后根据待嵌入的秘密信息选择对应语句进行传输[1]。这类方法的好处是不需要对原始文本进行任何修改就可以代表特定的隐蔽信息，具有极高的隐蔽性。但是缺点在于需要事先共享一个非常大的语料库，并且通常难以获得较高隐藏容量。

3.2.2 基于修改策略的语言隐写术

基于修改策略的语言隐写术主要是对文本中词汇级或者句子级的语义单元进行同义替换以嵌入隐蔽信息。例如对于词级同义变换，可以通过构建同义词典，然后对同义词典进行适当编码，根据待嵌入秘密信息选择特定的同义词对原始文本进行替换以嵌入信息[2]。对于句子同义变换，可以通过对句法结构进行等价变换以代表不同的隐蔽信息[3]。基于同义变换的文本隐写术曾引起了大量研究人员关注，但是这类方法主要缺点在于嵌入率比较低（大概每句话嵌入几个比特），难以传递大量信息。

3.2.3 基于生成策略的语言隐写术

基于生成策略的语言隐写术成为近两年的热点研究方向，吸引了大量研究人员的兴趣。其主要思路是根据待嵌入的秘密信息自动生成一段自然文本，在生成过程中对文本语义单元进行编码实现隐蔽信息嵌入。该策略与之前两种隐写策略最大的不同之处在于，其不需要被事先给定一个载体以嵌入信息。这一特性为生成式隐写策略同时带来了巨大的优势和挑战。主要优势在于，由于没有事先给定载体的限制，因此隐写方在嵌入信息过程中有较大的自由，从而可以期望获得较高的信息嵌入率。

载体生成式隐写策略面临的挑战同样是非常巨大的。2020年，清华大学的杨忠良博士在其博士论文中将载体生成式隐写面临的挑战难题总结为三个方面：感知隐蔽性，统计隐蔽性，认知隐蔽性。首先，由于不会事先被给与一个原始载体，因此，生成式隐写策略面临的第一个挑战是：如何根据待传递的秘密信息自动生成语义完整、语法正确且足够自然的自然语言？如果隐写方不能很好地解决这第一个挑战，检测方甚至不用采取任何统计分析手段，而直接利用人类的感知系统（例如视觉系统和听觉系统）就能判断正在传递的信息载体是否正常。因此，第一个挑战称为感知隐蔽性。感知隐蔽性是生成式隐写策略需要解决的首要难题，但这对于实现我们的最终目标，即安全高效的信息隐藏依然是不够的。隐写方还需要考虑第二个挑战：如何保证生成的隐写载体服从正常载体的统计分布特性以抵抗当前的以统计分析为主的隐写检测手段？即使生成的隐写载体足够自然，如果它不服从语用环境下正常载体的统计特性，也很容易被检测方利用统计分析方法检测出来。因此，第二个挑战称为统计隐蔽性。值得注意的是，上述两大挑战并没有对生成的隐写载体的语义表达进行约束。而如果传递的隐写载体在语义表达上是随机的也依然可能会带来潜在安全风险。因此为了进一步提升整个隐蔽通信的隐蔽性和安全性，隐写方还需要解决第三个挑战：如何在嵌入额外信息的同时控制生成的载体的语义表达，使其服从上下文语义约束条件以避免发生认知异常？杨忠良博士将第三个挑战命名为认知隐蔽性。

感知隐蔽性

为解决感知隐蔽性这个首要挑战难题，研究人员在过去几十年进行了不懈的努力，并尝试了各种各样的技术途径。早在1992年，Wayner 等人[4]提出了一个叫做 Mimic 的文本生成式隐写方法。该方法能保证生成的隐写文本中各个字符的统计分布规律与正常文本近似，但是该方法生成的字符序列不具有完整语义信息，不能解决感知隐蔽性的挑战难题。1998-2002年，Chapman 和 Davida [5] 尝试利用预先设计好的句法模板，根据秘密信息选择对应的语义单元填入模板中，最终生成一条句法完整的自然文本。这种方法能够生成句法正确的句子，但是它们生成的隐写文本模式单一，依然非常容易被识别出来。之后研究人员开始尝试结合统计语言模型进行隐写文本自动生成。2010年，Alfonso 等人[6]提出基于 N-gram 模型和短语片段集合的隐写文本自动生成模型。Chang 等人[7]进一步利用 Google 构建的Google N-gram 数据集指导隐写文本生成。在基于 N-gram 的隐写文本自动生成方法的基础上，之后有研究人员开始引入马尔科夫模型指导隐写文本自动生成。他们利用马尔科夫模型分析大量正常文本语料中的低阶转移矩阵，然后根据转移矩阵对词典中各个词汇进行相应编码，最终达到根据秘密信息自动生成隐写文本的目的。但是马尔科夫模型在拟合统计语言模型上具有本身的局限性。例如，它只统计了低阶转移矩阵的概率分布，忽略了句子中词汇之间的远距离依存关系。因此基于马尔科夫模型自动生成的隐写文本，虽然在句式结构和流畅度上相比之前的工作有了提升，但是生成的隐写文本质量依然难以达到实用的水平。考虑到马尔科夫模型的局限性，2017年，罗榆博等人[8]提出结合句法模板和统计语言模型以生成特定格式下的隐写文本，例如古典诗词。但是诗词毕竟是一种特殊格式的文本，在日常生活中并不经常使用。在公共网络环境中如果频繁发送诗词文本的行为本身就非常可疑，容易招致监控方的怀疑和监控。

2018年，清华大学的杨忠良和黄永峰等人[9]提出基于条件概率编码（Conditional Probability Coding，简称Conproc）的载体生成式隐写框架。Conproc框架由四个模块构成：载体序列化建模、条件概率分布估计、候选池构建以及动态符号编码。这一框架是普适的，可以推广到其他载体类型上，例如音频生成式隐写和图像生成式隐写等。对于自然文本，通常我们可以将句子建模成词的序列化表示。然后，通过在大规模文本数据集上训练统计语言模型，可以获得对文本中每个词条件概率分布的良好估计。其次，在利用训练好的统计语言模型进行文本生成时，根据各个时刻词的条件概率分布，构建相应的候选池。最后通过对候选池中的各个词进行动态编码，并根据秘密信息选择对应的字符作为各个时刻的输出，从而实现根据秘密信息自动生成自然语言的目的。

杨忠良和黄永峰等人在2018年提出的基于Conproc框架的具体实现RNN-Stega模型利用LSTM模型学习文本的语言模型和各个词的条件概率分布，然后利用每个时刻条件概率排名Top-K的词构建候选池，最后对候选池进行哈夫曼编码。实验表明该方法能大幅度提升生成的隐写文本的感知隐蔽性和信息嵌入率，相比之前主流的基于修改式的语言隐写术只有1%-3%左右的嵌入率，RNN-Stega模型的嵌入率最高可达到20%以上，达到了实用水平。该工作吸引了国内外大量研究人员的兴趣，并在此后的两年内提出了多种基于Conproc框架的改进方法。例如，2019年，哈佛大学的Ziegler等人[10]将语言模型替换为GPT-2模型，将哈夫曼编码改为算术编码。科罗拉多大学的Dai等人[11]提出patient-Huffman编码，将基于Top-K的候选池构建改为动态候选池构建。2020年，牛津大学的Andrew D. Ker等人[12]提出Syndrome-Trellis的动态符号编码方法。长沙理工大学的向凌云等人[13]将自然语句建模成字母序列，利用Char-RNN模型获取字母级的条件概率分布。中国农业大学的薛一鸣等人[14]采用对抗生成式网络模型进行隐写文本生成，并将基于Top-K的候选池构建方式更改为动态候选池构建。这些方法都进一步提升了生成的隐写文本的感知隐蔽性。

统计隐蔽性

2020年，杨忠良和黄永峰等人[15]精心设计了一个实验。实验结果显示，基于Conproc框架生成的隐写文本表现出显著的感知-统计隐蔽性冲突效应（Perception-Statistical Imperceptibility Conflict Effect，简称 Psic Effect）。

形成Psic效应的主要原因在于，开放环境下的文本具有非常丰富的多样性特点。这些多样性特点导致了这些网络文本可能并不服从统一的最优语言模型。之前的文本自动生成式隐写模型主要目的是为了使得生成的每个网络隐写文本看起来足够流畅以保证感知隐蔽性。然而，“过度优化”隐写文本质量会使得它们的总体分布与正常文本的总体分布有很大的差异，这会导致它们容易被基于统计分析方法的检测模型区分开。

Psic效应的发现给未来文本生成式隐写带来的启示至少包括两方面：（1）由于感知隐蔽性是生成式隐写策略面临的首要挑战难题，因此之前的文本生成式隐写方法主要目的在于优化生成的隐写文本质量以保证感知隐蔽性。然而Psic效应表明这一研究目标并不足以确保实现真正安全的信息隐藏，甚至可能存在一定的误导性。当生成的隐写文本已经满足一定质量要求后，进一步的“过度优化”生成文本质量可能会损害其统计隐蔽性，导致其更容易被检测。未来的研究工作需要在保证生成的隐写文本具有一定感知隐蔽性的同时，尽可能降低生成的隐写文本和正常文本的统计分布差异，以增强其抗隐写检测能力。（2）通常来说，隐写术的隐藏容量和隐蔽性之间存在相互对抗关系，因此我们通常难以同时获得高嵌入率和高隐蔽性。Psic效应显示，通过将隐蔽性区分为感知隐蔽性和统计隐蔽性，基于Conproc框架生成的隐写样本的感知隐蔽性和统计隐蔽性存在相互对抗的关系。这意味着我们可以通过牺牲少量且可控的感知隐蔽性，以获得隐藏容量和统计隐蔽性同时达到最优。这是修改式隐写策略难以做到的，其将成为生成式隐写策略的独特优势。

基于上述发现，2020年，杨忠良和黄永峰等人[15]提出基于VAE框架的文本生成式隐写方法。它们通过引入一个文本编码器，将文本映射到隐空间，期望通过约束正常文本和隐写文本在隐空间的分布差异来提升其统计隐蔽性。实验结果表明，该方法可以在牺牲极少量且可控的感知隐蔽性基础上，大幅度提升生成的隐写文本的统计隐蔽性（KL散度降低一半，隐写检测准确率降低10%以上）。2021年，薛一鸣等人[14]引入对抗学习机制，通过对抗训练约束正常文本和生成的隐写文本之间的统计分布差异，同样也大幅度提升了生成的隐写文本的统计隐蔽性。最近，张思雨和杨忠良等人[16]提出名为ADG的可证安全隐写文本生成模型。该方法破除了当前广泛采用的候选池构建+动态符号编码的隐写思路，采用分组划分策略构建秘密信息和词表的映射。他们证明了当对词表进行等概划分时，隐写算法对原始概率分布的破坏最小，可以生成近乎绝对安全的隐写文本。实验结果表明，其生成的隐写文本在极高嵌入率情况下（平均每词嵌入超过5 比特），隐写检测准确率可以维持在50%左右。这些最新的研究进展在保证生成的隐写文本具有一定感知隐蔽性的基础上，大幅度增强了其统计隐蔽性。

认知隐蔽性

2018年，杨忠良等人[17]提出的RITS模型应当是第一个尝试约束生成隐写文本语义表达的工作。他们将Conproc框架嵌入到对话系统中，并利用强化学习约束生成文本和上下文之间的语义关联性。2019年，薛一鸣等人[18]将Conproc框架嵌入到image caption任务中，利用给定的图像约束生成的隐写文本的语义表达。2020年，杨忠良和黄永峰等人[19]基于Encoder-Decoder框架提出，实现语义可控的隐写文本自动生成方法主要有两条技术途径，分别是编码端嵌入（IH-Enc）和解码端嵌入(IH-Dec)。

之前的方法主要采用的是IH-Dec技术途径，即通过一个特定的编码器学习上下文的语义向量表示，然后输入给作为解码器的语言模型，在文本生成过程中采用Conproc框架实现隐蔽信息嵌入。2021年，杨忠良和黄永峰等人[19]在对比了采用不同编码器时生成的隐写文本的多方面性能后指出，IH-Dec技术路线会将隐藏容量和文本质量之间的双方对抗关系，转变成隐藏容量和文本质量以及语义控制能力之间的三方对抗关系。因此基于IH-Dec技术路线的文本生成式隐写方法在提高嵌入率时，会造成隐写文本质量和语义控制能力的双双下降。考虑到这一缺陷，2020年，杨忠良和杨金帅等人[20]提出基于IH-Enc技术途径的知识图谱引导下的语义可控隐写文本生成方法，即Graph-Stega模型。该方法抛弃了基于Conproc框架的隐写思路，而是将秘密信息嵌入到知识图谱的路径表达中。这样的好处在于由于解码端不需要嵌入信息，因此可以保证选择具有较高条件概率的词输出。这样可以将隐藏容量和文本质量之间的对抗关系转移为隐藏容量和语义控制能力之间的对抗关系，至少保证了生成的隐写文本的质量不受嵌入率影响。这些工作均在一定程度上实现了嵌入秘密信息的同时控制生成的隐写文本的语义表达，一定程度上增强了生成的隐写文本的认知隐蔽性。

总结与展望

清华大学黄永峰等人曾通过将文本隐写系统建模成三个组成部分，归纳出文本隐写术的四条技术途径。该系统第一部分是需要携带的秘密信息客体，其形式可以是比特表示也可以是语义表示；第二部分是用于信息嵌入的文本载体，它由两部分组成，线性符号系统和文本语义表达；第三部分是实行第三方检测的主体，它可能是人类也可能是某种智能体。其检测能力分为两个层面：感知计算能力和认知推理能力。

基于这样的系统组成分析，之前基于文本符号编码（例如同义词替换等）的隐写术属于技术途径一，即通过将机密信息表示为比特编码，再利用文本的符号特征实现隐写。隐写方的主要目的是抵抗监控方的感知计算能力，使其难以根据文本符号系统的感知或统计特性判断文本中是否包含隐蔽信息。

现在研究比较多的文本生成式隐写术属于第二条途径，例如基于Conproc框架的文本生成式隐写术。其机密信息继续采用比特编码，隐藏载体不再使用现存文本，而是自动生成的文本。它们主要利用生成文本的词法或语法等符号特点隐藏信息。其对抗的依然是监控方的感知计算能力。

随着技术的发展，文本隐写术将会逐渐出现第三条技术途径。其秘密信息依然用比特表示，但是承载秘密信息的不再是文本符号层面，而是文本语义层面，即利用文本的语义表达嵌入秘密信息。它要求信息处理智能体对文本具有语义理解能力，从而逐渐从感知计算能力上升到认知推理能力。例如张思雨等人[21]最近提出语义空间隐写的思路，通过将文本映射到一个语义空间，然后对语义空间划分子空间并进行编码实现隐蔽信息嵌入，能够保证其在符号空间语义表达的完整性，并成功抵抗当前的基于符号统计分析的文本隐写检测方法。

随着技术的进步，未来将会发展出基于第四条途径的文本隐写术。其机密信息将不再是比特表示，而是直接采用语义表示。语义机密信息利用文本的语义本体进行隐藏，最后用智能体的认知推理能力进行机密信息的提取。这将是文本隐写术的最高级技术途径。我们希望通过本文对文本隐写术技术途径的梳理，能帮助未来研究人员研究出更好更智能的文本隐写术。

参考文献

[1] Zhou Z, Mu Y, Zhao N, et al. Coverless information hiding method based on multi-keywords[C]//International conference on cloud computing and security. Springer, Cham, 2016: 39-47.
[2] Xiang L, Yu J, Yang C, et al. A word-embedding-based steganalysis method for linguistic steganography via synonym substitution[J]. IEEE Access, 2018, 6: 64131-64141.
[3] Liu Y, Sun X, Wu Y. A natural language watermarking based on chinese syntax // International Conference on Natural Computation. Springer, 2005: 958-961.
[4] Wayner P. Mimic functions. Cryptologia, 1992, 16(3):193-214.
[5] Chapman M, Davida G. Plausible deniability using automated linguistic stegonagraphy // International Conference on Infrastructure Security. Springer, 2002: 276-287.
[6] Muñoz A, Gallardo J C, Álvarez I A. Improving n-gram linguistic steganography based on templates // 2010 International Conference on Security and Cryptography (SECRYPT). IEEE, 2010: 1-4.
[7] Chang C Y, Clark S. Linguistic steganography using automatically generated paraphrases //Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 591-599.
[8] Luo Y, Huang Y, Li F, et al. Text steganography based on ci-poetry generation using markov chain model. TIIS, 2016, 10(9):4568-4584.
[9] Yang Zhongliang, Guo Xiaoqin, Chen Zimin, Huang Yongfeng and Zhang Yujin. RNN-stega: Linguistic steganography based on recurrent neural networks[J]. IEEE Transactions on Information Forensics and Security, 2019, 14(5): 1280-1295.
[10] Ziegler Z, Deng Y, Rush A M. Neural Linguistic Steganography[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 1210-1215.
[11] Dai F, Cai Z. Towards Near-imperceptible Steganographic Text[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 4303-4308.
[12] Nakajima T V, Ker A D. The Syndrome-Trellis Sampler for Generative Steganography[C]//2020 IEEE International Workshop on Information Forensics and Security (WIFS). IEEE, 2020: 1-6.
[13] Xiang L, Yang S, Liu Y, et al. Novel linguistic steganography based on character-level text generation[J]. Mathematics, 2020, 8(9): 1558.
[14] Zhou X, Peng W, Yang B, et al. Linguistic Steganography Based on Adaptive Probability Distribution[J]. IEEE Transactions on Dependable and Secure Computing, 2021.
[15] Yang Z L, Zhang S Y, Hu Y T, et al. VAE-Stega: Linguistic steganography based on variational auto-encoder[J]. IEEE Transactions on Information Forensics and Security, 2020, 16: 880-895.
[16] Zhang S, Yang Z. Provably Secure Generative Linguistic Steganography[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics (ACL). 2021.
[17] Yang Zhongliang, Zhang Pengyun, Jiang Mingyu, Huang Yongfeng, Zhang Yujin. RITS: Real-Time Interactive Text Steganography Based on Automatic Dialogue Model. International Conference on Cloud Computing and Security. Springer, Cham, 2018: 253-264.
[18] Li M, Mu K, Zhong P, et al. Generating steganographic image description by dynamic synonym substitution[J]. Signal Processing, 2019, 164: 193-201.
[19] Yang Z, Xiang L, Zhang S, et al. Linguistic Generative Steganography With Enhanced Cognitive-Imperceptibility[J]. IEEE Signal Processing Letters, 2021, 28: 409-413.
[20] Yang Z, Gong B, Li Y, et al. Graph-stega: Semantic controllable steganographic text generation guided by knowledge graph[J]. arXiv preprint arXiv:2006.08339, 2020.
[21] Zhang S, Yang Z, Yang J, et al. Linguistic Steganography: From Symbolic Space to Semantic Space[J]. IEEE Signal Processing Letters, 2020.
[22] Yang Z, Hu Y, Huang Y, et al. Behavioral security in covert communication systems[C]//International Workshop on Digital Watermarking. Springer, Cham, 2019: 377-392.