使用预训练语言模型进行文本生成的常用微调策略

最新推荐文章于 2024-09-10 11:33:22 发布

3A是个坏同志

最新推荐文章于 2024-09-10 11:33:22 发布

阅读量1.2k

点赞数

分类专栏：神经网络机器学习文章标签：语言模型深度学习自然语言处理

原文链接：https://www.arxiv-vanity.com/papers/2105.10311/#:~:text=Pretrained%20language%20models%20%28PLMs%29%20are%20pretrained%20with%20a,understanding%20of%20language%20and%20improve%20the%20generation%20quality.

版权

机器学习同时被 2 个专栏收录

16 篇文章 3 订阅

订阅专栏

神经网络

9 篇文章 2 订阅

订阅专栏

译自Pretrained Language Models for Text Generation: A Survey 第六节

数据角度

小样本学习：在许多任务中，获取足够标记数据既困难又昂贵。预训练模型可以编码大量的语言和现实知识，这为数据稀缺提供了有效的解决方案。通常采用的方法是使用预训练参数插入现有模块。然后用几个、一个甚至没有研究任务的case对它进行微调。比如将小样本学习应用于数据到文本的任务，如表到文本的生成[1,2]和KG到文本的生成[3]。Chen[1]直接向 GPT-2 提供少量序列化的属性值对，Gong[2]进一步应用多个任务以更好地利用表的结构信息。此外，Li[3]提出了表征对齐，以弥合 KG 编码和预训练模型之间的语义差距，以增强 KG 与文本之间的对应关系。

域迁移：预训练模型有大量的参数，并在大规模语料库上进行了预训练。然而，它们仍然不能直接适应与预训练域具有较大分布差异的新域。一个有效的解决方案是，在对目标任务进行微调之前，使用目标领域的数据对预训练模型进行训练。遮盖(mask)预测是一种广泛使用的方法，尝试使用剩余的token来预测被遮挡的token。域迁移中有几种不同的遮盖方式。Zeng和Nie[13]提出了基于TF-IDF的mask，以遮盖更多与条件相关的token，以便专注于域特征。文档遮盖通常用于摘要任务，以捕获长文档的文档级特征[4]。

任务角度

除了新域的特征外，在微调预训练模型时考虑特定生成任务中的语言连贯性和文本保真度等特殊问题也很有意义。

增强连贯性：为了增强语言连贯性，一个重要的方法是在微调期间更好地建模语言上下文。通过对比学习，微调的模型擅长区分句子对是否相似。通过这种方法，预训练模型被迫理解两个句子之间的位置或语义关系，从而得到更好的表征。下一句预测（NSP）是判断两个输入句句是否为连续句段的常用方法，可应用于摘要[5]和对话系统[6]。Zeng和Lapata[14]建议根据其语义相似性重新排列句子顺序。CBT[7]提出了跨模态训练中的噪声对比估计（NCE），以鼓励模型与一组负干扰因素相比识别正确的视频文本对。去噪自编码（DAE） 将损坏的文本作为输入，旨在恢复原始文本。使用 DAE 进行微调的模型具有很强的理解整体句子和捕获更远距离相关性的能力。例如，TED[8]利用 DAE 来优化基本语义信息，以便进行抽象汇总。XGPT[9]尝试使用图像条件去噪自编码（IDA）对底层文本 - 图像对齐进行建模，以迫使模型重建整个句子。

保持保真度：文本保真度是指生成的文本如何与原始输入信息保持一致，这是许多文本生成任务中需要考虑的重要方面。预训练模型的通用结构无法在特定文本生成任务中保持文本保真度。比如对于表到文本生成任务，需要对表的结构信息进行编码。Gong[2]提出了利用多任务学习，从表嵌入中重建并强制表嵌入与内容嵌入之间的匹配。此外，pointer生成器[10]可应用于KG转文本生成，复制KG中的实体和关系信息。

模型角度

为了提高生成文本的质量，关键是基于特定任务的数据有效训练预训练模型的参数，以便预训练模型可以捕获针对任务的语义特征。然而，如上所述，特定任务的数据不足，因此在对有限数据进行微调时很可能会出现过拟合的情况。对于针对模型的微调方法，Gu[15]使用了固定的教师 GPT 来保存在另一个微调 GPT 中编码的知识。Chen等[16]使用BERT 模型（教师）作为监督来指导 Seq2Seq 模型（学生）以获得更好的生成性能。此外，Liu和Lapata[17]利用两个优化器分别更新预训练模型和初始模块的参数，以解决两个模块之间的差异。

还有其他方法可以指导微调过程。例如，强化学习可以应用于通过不可微度量直接指导模型[11]，如ROUGE。Zhao[18]利用课程学习(curriculum learning)让模型从简单的文档学习到困难的文档。此外DIALOGPT[12]实现了最大互信息（MMI）评分功能，以减轻产生乏味，无信息的对话系统回复的产生。

引用

Zhiyu Chen, Harini Eavani, Wenhu Chen, Yinyin Liu, and William Yang Wang. Few-shot NLG with pre-trained language model. In ACL, 2020.
Heng Gong, Yawei Sun, Xiaocheng Feng, Bing Qin, Wei Bi, Xiaojiang Liu, and Ting Liu. Tablegpt: Few-shot table-to-text generation with table structure reconstruction and content matching. In COLING, 2020.
Junyi Li, Tianyi Tang, Wayne Xin Zhao, Zhicheng Wei, Nicholas Jing Yuan, and Ji-Rong Wen. Few-shot knowledge graph-to-text generation with pretrained language models. In Findings of ACL, 2021.
Xingxing Zhang, Furu Wei, and Ming Zhou. HIBERT: document level pre-training of hierarchical bidirectional transformers for document summarization. In ACL, 2019.
Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang, and Eric Darve. TED: A pretrained unsupervised summarization model with theme modeling and denoising. In EMNLP , 2020.
Thomas Wolf, Victor Sanh, Julien Chaumond, and Clement Delangue. Transfertransfo: A transfer learning approach for neural network based conversational agents. arXiv preprint arXiv:1901.08149, 2019.
Chen Sun, Fabien Baradel, Kevin Murphy, and Cordelia Schmid. Contrastive bidirectional transformer for temporal representation learning. arXiv preprint arXiv:1906.05743, 2019.
Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang, and Eric Darve. TED: A pretrained unsupervised summarization model with theme modeling and denoising. In EMNLP , 2020.
Qiaolin Xia, Haoyang Huang, Nan Duan, Dongdong Zhang, Lei Ji, Zhifang Sui, Edward Cui, Taroon Bharti, Xin Liu, and Ming Zhou. XGPT: cross-modal generative pre-training for image captioning. arXiv preprint arXiv:2003.01473, 2020.
Abigail See, Peter J. Liu, and Christopher D. Manning. Get to the point: Summarization with pointer-generator networks. In ACL, 2017.
Haoyu Zhang, Jingjing Cai, Jianjun Xu, and Ji Wang. Pretraining-based natural language generation for text summarization. In CoNLL, 2019.
Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill Dolan. DIALOGPT : Large-scale generative pre-training for conversational response generation. In ACL, 2020.
Yan Zeng and Jian-Yun Nie. Generalized conditioned dialogue generation based on pre-trained language model. arXiv preprint arXiv:2010.11140, 2020.
Hao Zheng and Mirella Lapata. Sentence centrality revisited for unsupervised summarization. In ACL, 2019.
Jing Gu, Qingyang Wu, Chongruo Wu, Weiyan Shi, and Zhou Yu. A tailored pre-training
model for task-oriented dialog generation. arXiv preprint arXiv:2004.13835, 2020.
Yen-Chun Chen, Zhe Gan, Yu Cheng, Jingzhou Liu, and Jingjing Liu. Distilling knowledge learned in BERT for text generation. In ACL, 2020.
Yang Liu and Mirella Lapata. Text summarization with pretrained encoders. In EMNLP, 2019.
Xueliang Zhao, Wei Wu, Can Xu, Chongyang Tao, Dongyan Zhao, and Rui Yan. Knowledge-grounded dialogue generation with pretrained language models. In EMNLP, 2020.