NLP论文解读：无需模板且高效的语言微调模型（下）

最新推荐文章于 2023-01-05 22:10:28 发布

NLP论文解读

最新推荐文章于 2023-01-05 22:10:28 发布

阅读量796

点赞数

文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NLPlunwenjiedu/article/details/123465330

版权

©原创作者 | 苏菲

论文题目：

Prompt-free and Efficient Language Model Fine-Tuning

论文作者：

Rabeeh Karimi Mahabadi

论文地址：

https://openreview.net/pdf?id=6o5ZEtqP2g

02 PERFECT：无需Patterns和Verbalizer的微调模型

这个模型主要包含三个部分：

1）无需pattern的任务描述，使用了一个任务相关的适配器来有效告知模型相关的任务，取代了手工制作的patterns；

2）使用多token的标签向量来有效学习标签的表示，去掉了原来手工设计的verbalizers；

3）基于原型网络思想的有效预测策略，取代了原来的逐个自回归解码方法。如图3所示，该模型固定了预训练语言模型的底层，而仅仅优化新加入模块（图中绿色模块）的参数。这些新加入的模块包括可以适应给定任务的表示的适配器和多token标签表示等等。

图3

2.1 无需模板的任务描述

该模型使用了面向具体任务的适配层（Adapter Layers），为模型提供学习到的隐式的任务描述。

适配层的加入还额外带来了其它好处：

a）微调预训练语言模型的上百万或几十亿的所有权重参数是样本低效的，在低资源环境下是不稳定的，而适配层的引入可以通过保持预训练语言模型底层参数不变，使得微调是样本高效的；

b)适配层减少了存储和内存的占用空间；

c)增加了模型的稳定性和性能，使得这种方法成为少样本微调的一种好方案。

2.2 多标记标签向量

使用固定的token数M来表示每一个标签，而不是经典模型中可变token长度的verbalizers，可以大大简化模型的实现并提升训练的速度。

2.3 PERFECT的训练

如图3所示，模型通过标签向量的最优化ÿ

最低0.47元/天解锁文章

NLP论文解读

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
NLP论文解读：无需模板且高效的语言微调模型（下）

这篇论文提出的PERFECT模型及方法，对于预训练语言模型的小样本学习是简单且高效的，该方法并不需要手工的模板和词汇标签映射。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

NLP论文解读 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。