【论文笔记】Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

最新推荐文章于 2024-04-30 20:52:07 发布

BodyCsoulN

最新推荐文章于 2024-04-30 20:52:07 发布

阅读量944

点赞数

分类专栏：论文笔记文章标签：语言模型人工智能自然语言处理 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bodycsouln/article/details/121241864

版权

本文探讨了预训练语言模型在特定领域和任务中的适应性，提出DAPT（领域自适应预训练）和TAPT（任务自适应预训练）方法。研究发现，DAPT在领域差异较大的情况下能提升性能，而TAPT则利用任务相关数据进行预训练，资源消耗少但效果良好。DAPT+TAPT组合在多个任务中表现最佳，同时提出数据增强策略以优化TAPT。

摘要由CSDN通过智能技术生成

原文作者：Suchin Gururangan，Ana Marasović，Swabha Swayamdipta，Kyle Lo，Iz Beltagy，Doug Downey，Noah A. Smith

原文标题：Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

原文来源：ACL2020

原文链接：https://www.aclweb.org/anthology/2020.acl-main.740.pdf

Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

作者针对预训练模型是否仍然有助于特定领域的任务进行了研究，跨4个领域，8个分类任务，发现第二阶段的领域自适应预训练((domain-adaptive pretraining)仍然能够提高性能。另外，在DAPT之后，再进行TAPT(task-adaptive pretraining)也能够提高成绩。

DAPT

作者选择了四个领域的文本进行DAPT，分别是生物医学和计算机科学出版物、新闻、评论。原因是领域内的文本分类数据集可用，而且在之前的工作中也很常见。表1中列出了这四个数据集的信息。

请添加图片描述

作者首先进行了这四个领域与ROBERTA预训练领域相似性的分析。图二中为作者采样的

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。