【论文阅读笔记1】：Pre-trained Language Models for Text Generation: A Survey_energy transformer: using pre-trained language mod-CSDN博客

How to encode the input 𝑥 into a representation preserving the input semantics that can be fused into the PLM ?
How to design an effective PLM M to serve as the generation function $f_{\mathcal{M}}$ and adapt to various text generation tasks?
How to optimize the text generation function (i.e., PLMs) $f_{\mathcal{M}}$ given the reference text 𝑦 and ensure that the generated text satisfies special text properties $\mathbb{P}$ ?

三、ENCODING INPUT REPRESENTATIONS

通过三种不同的输入：非结构化输入、结构化输入和多模态输入描述预训练模型输入数据的问题

3.1 非结构化输入

3.1.1 段落级表示学习

目的是同时学习到低级别的word meaning和高级别的topic sematics。主要通过hierarchy-based或者graph-based方法学习段落表示。

hierarchy-based：对于一个包含多语句的段落输入，如多轮对话，直接的进行拼接难以捕捉语句之间的语义联系。因此，使用hierarchical编码器学习输入段落。
graph-based：一个长段一般会包含一些冗余的、重复的信息。如果能把关键的语义信息提取出来，去除冗余信息可以很好地捕捉段落语义。相比于序列，图可以更好地表示这层关系。

3.1.2 文章级表示学习

输入是包含多个段的文章。

对句子间的关系进行建模。
保留重点语义信息，去冗余信息。
提高表示学习的效率

3.1.3 多语言表示学习

分为Cross-lingual（两种语言）和Multi-lingual（多语言）注：不知道为什么写这一段，不应该放在3.3吗。

3.2 结构化输入

结构化输入是我比较关注的。结构化输入目前面临以下三个挑战。注：这三个点基本跟TableGPT里总结的是一样的，在我看来主要就是两点：一是plm是序列输入训练的，所以有语义鸿沟；二是需要保留结构信息。

There exists a semantic gap between structured data and PLMs, since PLMs are typically pre-trained on natural language texts;
It is non-trivial to encode the structural information in the input data;
It requires to maintain fidelity of the generated text with respect to the input.

之后文章根据各点都撰写了解决方式，有重复，我这里总结为以下几点：

把结构化输入转化为序列化输入：通过模板的方式或者直接添加结构信息。
对齐结构化输入和序列化输入的表示：例如最小化结构化输入gnn和plm encoder的语义距离。
增加结构化encoder模块
使用copy机制

3.3 多模态输入

本人的研究方向不涉及这个，不总结了...

四、DESIGNING PLMS FOR TEXT GENERATION

4.1 标准结构

现有的机构包含单独使用transformer的编码器或者解码器，或者使用基于transformer的编码器-解码器结构，文章将这种标准结构分为四个变体：masked LMs, causal LMs, prefix LMs和seperate encoder-decoder结构。

4.1.1 Masked Language Models

类似transformer的编码器，如BERT。然而，这类模型由于与训练任务和文本生成之间的差异性，一般不适用于文本生成任务。一般作为文本生成的编码器存在。

4.1.2 Causal Language Models

类似transformer的解码器，如GPT系列。这类模型的缺点在于忽视了输入端的双向信息，而且不适用于seq2seq式的生成任务。

4.1.3 Prefix Language Models

输入双向，自回归式输出的单个Transformer。UniLM是第一个PrefixLM模型。然而与encoder-decoder相比，还是encoder-decoder的效果好一些。

4.1.4 Encoder-Decoder Language Models

标准的transformer架构

4.2 结构改进方法

有些工作是通过改进transoformer的结构去提高文本生成效果的。这种改进主要可以分为两类：

4.2.1 扩展输入embedding

文章主要标注了两种方法，一种是对position embedding进行改进，比如从绝对位置编码到相对位置编码，甚至表示句子和句子间的位置编码。第二种是增加辅助embedding，例如在多模态下增加语音embedding等。

4.2.2 改进注意力机制

1、为了适应长文本输入和降低复杂度没引入sparse attention。2、由于使用多个编码器，对cross attention进行改进。

五、 OPTIMIZING PLMS FOR TEXT GENERATION

主要分为三种方式介绍优化方法：fine-tuning, prompt-tuning, 和 property-tuning

5.1 Fine-Tuning

5.1.1 Vanilla Fine-Tuning

最正常的微调方法。主要问题是在小数据集上容易过拟合。

5.1.2 Intermediate Fine-Tuning

采用一个足够大的中间数据集帮助微调。主要分为：

1、不同领域的相同任务数据集。
2、相同领域的不同任务数据集。

5.1.3 Multi-Task Fine-Tuning

这种多任务微调方式可以增强PLM的鲁棒性和对大量有标签数据的依赖。主要分为：

Pure Multi-Task Fine-Tuning：采用与主文本生成任务相同，但是领域不同的方法（主要是数据集）。
Hybrid Multi-Task Fine-Tuning：采用与主文本生成任务不同的方法

5.1.4 Parameter-Efficient Fine-Tuning

上述方法耗时，因此介绍这类微调方法

Adapter-based：在每一层添加two feed-forward layers 和 a non-linear layer作为adapter，然后只微调adapter。
Freezing-based：只微调PLM的部分参数
Distillation-based：把PLM中的知识蒸馏到小模型中，然后训练小模型。