[论文阅读72]Parameter-Efficient Transfer Learning for NLP

happyprince

已于 2023-05-23 15:15:13 修改

阅读量795

点赞数 1

文章标签：自然语言处理论文阅读深度学习

于 2023-05-23 15:14:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ld326/article/details/130827854

版权

1. 基本信息

题目	论文作者与单位	来源	年份
Parameter-Efficient Transfer Learning for NLP	Neil Houlsby等Google Research，雅盖隆大学-波兰	PMLR	2019

Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP[C]//International Conference on Machine Learning. PMLR, 2019: 2790-2799.

论文链接：http://proceedings.mlr.press/v97/houlsby19a.html

论文代码：

2. 要点

研究主题	问题背景	核心方法流程	亮点	数据集	结论	论文类型	关键字
大模型微调	微调参数不高效或无效	提出Adapter模块。基于Bert模型来进行实验，26个不同的分类任务。	针对每个任务仅添加少量可训练参数，之前网络的参数固定，参数高度复用。	26个分类。包括GLUE benchmark。	在训练很少的参数的情况下，可以接近训练全参数的效果。Adapter的GLUE得分为80.0，而完全微调为80.4。	模型方法	PETL,Adapter

引入Adapter的目标：对于N个任务，完全微调模型需要N x 预训练模型的参数数量。可是Adapter的目标是达到微调相当的性能，但总参数训练更少，理想情况下接近1 ×。

3. 模型(核心内容)

Adapter与transformer的结合框架。

在Transformer中的两个地方增加，一个地方在projection后面，一个地方在两个前向层后面；

对于每个Adapter层像一个瓶颈。它的参数比较原始模型少很多，也包含skip-connection. 只更新绿色部分部分。

4. 实验与分析

AutoML平台进行实验的。

4.1 数据集

GLUE benchmark

17个公开数据

SQuAD question answering

4.2 GLUE benchmark的结果

GLUE得分为80.0，而完全微调为80.4。

BERT_LARGE模型的总调参数为9.0 x ，表示这9个任务都得微调的总和；

Adapters的最好效果为80.0，而参数总量只为1.3倍于原模型参数据，训练的参数只有3.6%.

5. 小结

提出了与transformer相结合的adapter模型，可以在训练少参数的情况下达到全调的效果。想法很不错，效果也是比较好的。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读72]Parameter-Efficient Transfer Learning for NLP

提出了与transformer相结合的adapter模型，可以在训练少参数的情况下达到全调的效果。想法很不错，效果也是比较好的。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。