【论文笔记】Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

最新推荐文章于 2024-04-30 20:52:07 发布

BodyCsoulN

最新推荐文章于 2024-04-30 20:52:07 发布

阅读量868

点赞数

分类专栏：论文笔记文章标签：语言模型人工智能自然语言处理 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BodyCsoulN/article/details/121241864

版权

原文作者：Suchin Gururangan，Ana Marasović，Swabha Swayamdipta，Kyle Lo，Iz Beltagy，Doug Downey，Noah A. Smith

原文标题：Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

原文来源：ACL2020

原文链接：https://www.aclweb.org/anthology/2020.acl-main.740.pdf

Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

作者针对预训练模型是否仍然有助于特定领域的任务进行了研究，跨4个领域，8个分类任务，发现第二阶段的领域自适应预训练((domain-adaptive pretraining)仍然能够提高性能。另外，在DAPT之后，再进行TAPT(task-adaptive pretraining)也能够提高成绩。

DAPT

作者选择了四个领域的文本进行DAPT，分别是生物医学和计算机科学出版物、新闻、评论。原因是领域内的文本分类数据集可用，而且在之前的工作中也很常见。表1中列出了这四个数据集的信息。

请添加图片描述

作者首先进行了这四个领域与ROBERTA预训练领域相似性的分析。图二中为作者采样的文本数据的重叠情况。发现ROBERTA预训练的数据与NEWS和REVIEWS重叠很高，但是和CS、BIOMED相似度比较低。这表明领域的差异越大，DAPT的潜力就越大。

在实验中，作者采用了和ROBERTA一样的设置，选择ROBERTA-base作为baseline，并在四个领域的八个文本分类任务上进行试验，如表2所示。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

原文作者：Suchin Gururangan，Ana Marasović，Swabha Swayamdipta，Kyle Lo，Iz Beltagy，Doug Downey，Noah A. Smith原文标题：Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks原文来源：ACL2020原文链接：https://www.aclweb.org/anthology/2020.acl-main.740.pdfDon’t Stop
复制链接

扫一扫

专栏目录

BodyCsoulN CSDN认证博客专家 CSDN认证企业博客

码龄6年

33: 原创

16万+: 周排名

124万+: 总排名

4万+: 访问

: 等级

527: 积分

3: 粉丝

28: 获赞

6: 评论

120: 收藏

私信

关注

热门文章

分类专栏

最新评论

【论文笔记】SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions
春夏秋冬又一年: 感谢您的解读，将您的博客收录到知识图谱-知识嵌入-基本模型系列论文解读了 https://www.webhub123.com/#/home/detail?p=4UYWc-Rmw1
【论文笔记】Attention is all you need
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
torch 单机多卡训练
遇到好事了: 我的环境变量好像没有LOCAL_RANK
【论文笔记】Attention is all you need
xiaoyu_fish_0921: 噢噢好的谢谢！
【论文笔记】Attention is all you need
BodyCsoulN: 你好，这个兼容函数一般都是使用内积进行计算的。我这个说法是借鉴了其他博主的说法。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。