使用预训练语言模型进行文本生成的常用微调策略

译自Pretrained Language Models for Text Generation: A Survey 第六节

数据角度

小样本学习:在许多任务中,获取足够标记数据既困难又昂贵。预训练模型可以编码大量的语言和现实知识,这为数据稀缺提供了有效的解决方案。通常采用的方法是使用预训练参数插入现有模块。然后用几个、一个甚至没有研究任务的case对它进行微调。比如将小样本学习应用于数据到文本的任务,如表到文本的生成[1,2]和KG到文本的生成[3]。Chen[1]直接向 GPT-2 提供少量序列化的属性值对,Gong[2]进一步应用多个任务以更好地利用表的结构信息。此外,Li[3]提出了表征对齐,以弥合 KG 编码和预训练模型之间的语义差距,以增强 KG 与文本之间的对应关系。

域迁移:预训练模型有大量的参数,并在大规模语料库上进行了预训练。然而,它们仍然不能直接适应与预训练域具有较大分布差异的新域。一个有效的解决方案是,在对目标任务进行微调之前,使用目标领域的数据对预训练模型进行训练。遮盖(mask)预测是一种广泛使用的方法,尝试使用剩余的token来预测被遮挡的token。域迁移中有几种不同的遮盖方式。Zeng和Nie[13]提出了基于TF-IDF的mask,以遮盖更多与条件相关的token,以便专注于域特征。文档遮盖通常用于摘要任务,以捕获长文档的文档级特征[4]。

任务角度

除了新域的特征外,在微调预训练模型时考虑特定生成任务中的语言连贯性和文本保真度等特殊问题也很有意义。

增强连贯性:为了增强语言连贯性,一个重要的方法是在微调期间更好地建模语言上下文。通过对比学习,微调的模型擅长区分句子对是否相似。通过这种方法,预训练模型被迫理解两个句子之间的位置或语义关系,从而得到更好的表征。下一句预测(NSP)是判断两个输入句句是否为连续句段的常用方法,可应用于摘要[5]和对话系统[6]。Zeng和Lapata[14]建议根据其语义相似性重新排列句子顺序。CBT[7]提出了跨模态训练中的噪声对比估计(NCE),以鼓励模型与一组负干扰因素相比识别正确的视频文本对。去噪自编码 (DAE) 将损坏的文本作为输入,旨在恢复原始文本。使用 DAE 进行微调的模型具有很强的理解整体句子和捕获更远距离相关性的能力。例如,TED[8]利用 DAE 来优化基本语义信息,以便进行抽象汇总。XGPT[9]尝试使用图像条件去噪自编码(IDA)对底层文本 - 图像对齐进行建模,以迫使模型重建整个句子。

保持保真度:文本保真度是指生成的文本如何与原始输入信息保持一致,这是许多文本生成任务中需要考虑的重要方面。预训练模型的通用结构无法在特定文本生成任务中保持文本保真度。比如对于表到文本生成任务,需要对表的结构信息进行编码。Gong[2]提出了利用多任务学习,从表嵌入中重建并强制表嵌入与内容嵌入之间的匹配。此外,pointer生成器[10]可应用于KG转文本生成,复制KG中的实体和关系信息。

模型角度

为了提高生成文本的质量,关键是基于特定任务的数据有效训练预训练模型的参数,以便预训练模型可以捕获针对任务的语义特征。然而,如上所述,特定任务的数据不足,因此在对有限数据进行微调时很可能会出现过拟合的情况。对于针对模型的微调方法,Gu[15]使用了固定的教师 GPT 来保存在另一个微调 GPT 中编码的知识。Chen等[16]使用BERT 模型(教师)作为监督来指导 Seq2Seq 模型(学生)以获得更好的生成性能。此外,Liu和Lapata[17]利用两个优化器分别更新预训练模型和初始模块的参数,以解决两个模块之间的差异。

还有其他方法可以指导微调过程。例如,强化学习可以应用于通过不可微度量直接指导模型[11],如ROUGE。Zhao[18]利用课程学习(curriculum learning)让模型从简单的文档学习到困难的文档。此外DIALOGPT[12]实现了最大互信息(MMI)评分功能,以减轻产生乏味,无信息的对话系统回复的产生。

引用

  1. Zhiyu Chen, Harini Eavani, Wenhu Chen, Yinyin Liu, and William Yang Wang. Few-shot NLG with pre-trained language model. In ACL, 2020.
  2. Heng Gong, Yawei Sun, Xiaocheng Feng, Bing Qin, Wei Bi, Xiaojiang Liu, and Ting Liu. Tablegpt: Few-shot table-to-text generation with table structure reconstruction and content matching. In COLING, 2020.
  3. Junyi Li, Tianyi Tang, Wayne Xin Zhao, Zhicheng Wei, Nicholas Jing Yuan, and Ji-Rong Wen. Few-shot knowledge graph-to-text generation with pretrained language models. In Findings of ACL, 2021.
  4. Xingxing Zhang, Furu Wei, and Ming Zhou. HIBERT: document level pre-training of hierarchical bidirectional transformers for document summarization. In ACL, 2019.
  5. Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang, and Eric Darve. TED: A pretrained unsupervised summarization model with theme modeling and denoising. In EMNLP , 2020.
  6. Thomas Wolf, Victor Sanh, Julien Chaumond, and Clement Delangue. Transfertransfo: A transfer learning approach for neural network based conversational agents. arXiv preprint arXiv:1901.08149, 2019.
  7. Chen Sun, Fabien Baradel, Kevin Murphy, and Cordelia Schmid. Contrastive bidirectional transformer for temporal representation learning. arXiv preprint arXiv:1906.05743, 2019.
  8. Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang, and Eric Darve. TED: A pretrained unsupervised summarization model with theme modeling and denoising. In EMNLP , 2020.
  9. Qiaolin Xia, Haoyang Huang, Nan Duan, Dongdong Zhang, Lei Ji, Zhifang Sui, Edward Cui, Taroon Bharti, Xin Liu, and Ming Zhou. XGPT: cross-modal generative pre-training for image captioning. arXiv preprint arXiv:2003.01473, 2020.
  10. Abigail See, Peter J. Liu, and Christopher D. Manning. Get to the point: Summarization with pointer-generator networks. In ACL, 2017.
  11. Haoyu Zhang, Jingjing Cai, Jianjun Xu, and Ji Wang. Pretraining-based natural language generation for text summarization. In CoNLL, 2019.
  12. Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill Dolan. DIALOGPT : Large-scale generative pre-training for conversational response generation. In ACL, 2020.
  13. Yan Zeng and Jian-Yun Nie. Generalized conditioned dialogue generation based on pre-trained language model. arXiv preprint arXiv:2010.11140, 2020.
  14. Hao Zheng and Mirella Lapata. Sentence centrality revisited for unsupervised summarization. In ACL, 2019.
  15. Jing Gu, Qingyang Wu, Chongruo Wu, Weiyan Shi, and Zhou Yu. A tailored pre-training
    model for task-oriented dialog generation. arXiv preprint arXiv:2004.13835, 2020.
  16. Yen-Chun Chen, Zhe Gan, Yu Cheng, Jingzhou Liu, and Jingjing Liu. Distilling knowledge learned in BERT for text generation. In ACL, 2020.
  17. Yang Liu and Mirella Lapata. Text summarization with pretrained encoders. In EMNLP, 2019.
  18. Xueliang Zhao, Wei Wu, Can Xu, Chongyang Tao, Dongyan Zhao, and Rui Yan. Knowledge-grounded dialogue generation with pretrained language models. In EMNLP, 2020.

扩展阅读:关于预训练语言模型各方向论文目录基于预训练语言模型的文本生成研究综述_zenRRan的博客-CSDN博客

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
有以下几种算法可以使用小样本微调预训练模型: 1. 迁移学习(Transfer Learning):将已经在大规模数据上预训练好的模型迁移到任务数据上,并在较少的数据上进行微调,以适应新的任务数据。例如,可以使用BERT等预训练模型在大规模文本数据上进行预训练,然后将其微调到某个特定的文本分类任务上。 2. 元学习(Meta-Learning):元学习是一种可以快速学习新任务的机器学习方法。它允许模型在较少的样本上学习如何快速适应新的任务,从而能够更好地应对小样本学习的问题。例如,可以使用MAML算法在少量样本上微调预训练模型,以适应新的任务数据。 3. 知识蒸馏(Knowledge Distillation):知识蒸馏是一种可以将大模型的知识传递到小模型的方法。它可以利用已训练好的大型模型的知识,通过一些方法将其压缩成较小的模型,并在小样本上进行微调。例如,可以使用DistilBERT等已经压缩过的预训练模型在小样本上进行微调。 4. 数据增强(Data Augmentation):数据增强是一种可以通过对已有数据进行一些变换来生成更多数据的方法。它可以在小样本上增加数据量,从而可以提高模型的泛化能力。例如,在图像分类任务中,可以通过旋转、缩放、平移等方式对图像进行增强,在文本分类任务中,可以通过随机替换、删除、插入等方式对文本进行增强。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值