Re26：读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

诸神缄默不语

已于 2022-08-22 20:31:01 修改

阅读量829

点赞数

分类专栏：人工智能学习笔记文章标签：语言模型 NLP 自然语言处理预训练 RoBERTa

于 2022-08-22 19:55:37 首次发布

本文链接：https://blog.csdn.net/PolarisRisingWar/article/details/126425699

版权

人工智能学习笔记专栏收录该内容

269 篇文章

订阅专栏

该博客探讨了2020年ACL论文的研究成果，指出在专业领域上继续预训练通用语言模型（如RoBERTa）能提升性能。论文提出了域适应预训练（DAPT）和任务适应预训练（TAPT）的概念，并通过实验展示了多阶段适应预训练的有效性。DAPT在不相似领域的潜力更大，而TAPT则是在特定任务无标签数据上的预训练，用于防止灾难性遗忘。此外，数据增强策略也在任务语料中得到应用。博客还讨论了预训练资源有限时的数据选择策略和轻量级模型VAMPIRE。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

诸神缄默不语-个人CSDN博文目录

论文名称：Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
（不要停下来啊！）
论文ACL官方下载地址：https://aclanthology.org/2020.acl-main.740/（包含ACL官方讲解视频，本博文中非论文配图都来自此视频）
官方GitHub项目：allenai/dont-stop-pretraining: Code associated with the Don’t Stop Pretraining ACL 2020 paper

本文是2020年ACL论文，主要的发现是：在通用域预训练模型在专业领域上，如果再进一步进行预训练，效果会更好。（现在听起来挺常识的）
在特定域上再一次预训练：domain-adaptive pretraining DAPT
用指定任务（本文中是分类任务）的无标签数据（从task distribution中drawn）上再一次预训练：task-adaptive pretraining TAPT
在任务语料上使用简单的数据选择策略来进行数据增强是有效的，尤其在domain-adaptive预训练资源难以获取的情况下。
整体上，multiphase adaptive pretraining可以提供很大的任务效果提升。