ACL2023 ｜黑盒大模型如何微调？清华Decoder Tuning方法提升大模型few-shot场景效果

最新推荐文章于 2024-08-26 10:35:47 发布

HxShine

最新推荐文章于 2024-08-26 10:35:47 发布

阅读量1k

点赞数 2

分类专栏： nlp_paper llm nlp 文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16949707/article/details/130968519

版权

nlp 同时被 3 个专栏收录

97 篇文章 3 订阅

订阅专栏

75 篇文章 7 订阅

订阅专栏

23 篇文章 1 订阅

订阅专栏

DecT是一种针对预训练模型（PTM）的新方法，它通过在黑盒模型的输出端进行tuning来提高下游任务性能。这种方法利用ProtoNet模型对MASK位置的特征进行建模，结合PTM的预测得分进行融合，尤其适用于有限样本的分类任务。尽管在数据量增加或复杂任务上可能不如全量fine-tuning，但DecT在效率和效果上优于多种prompt-based方法。

摘要由CSDN通过智能技术生成

一、概述

title：Decoder Tuning: Efficient Language Understanding as Decoding

论文地址：https://arxiv.org/abs/2212.08408

代码：GitHub - thunlp/DecT

二、Motivation

现在有很多模型只提供API，没法直接训练，并且是按请求次数计费的，成本也比较高。
之前大模型微调方法主要是冻结原始模型，在输入层进行tuning，但是该方法缺乏梯度信号，训练比较难，训练过程需要请求上千次api，带来的计算和时间成本都比较高。

三、方法

1 PipeLine of DecT

在黑盒模型的输出端进行tuning，提升其在下游任务的表现

pipeline解读：

输入：构建人工temple，引入MASK，拼接原始文本作为输入，有点类似prompt design方法。
ProtoNet模型（本地知识）：训练一个ProtoNet模型，其训练特征来自MASK对应的隐藏层的特征。
模型带来的先验知识：直接拿原始PTM预测的label的分数。
输出：将ProtoNet模型结果和PTM API的预测score（topk类别PLM模型预测结果）融合作为输出。

2 输入输出以及融合方法

Dec（）为可训练的模型，sk为PLM预测的logit，l为融合权重

3 PLM原始模型权重标定方法

原始PLM预测的结果高频词预测概率高，这里对其概率重新进行了标定。

4 ProtoNet模型选择原因

Prototypical方法在few-shot和prompt-based tuning方法效果比较好，所以选择该模型作为对mask特征进行tuiling的模型。

四、Conclusion

相当于在一个黑盒的PLMs情况下，只提供api接口，做了一个高效适配下游任务的方法（主要是分类任务）
few-shot效果又快又好，比所有baseline都好，并且速度提升200倍

五、limitation

提供了一个黑盒PTMs的下游任务训练方法，但是当数据量扩大后，比fine-tuning方法效果还是差不少，特别是在一些比较难的任务上。
只在分类任务上做了尝试，没有测试自由形式的文本生成任务。

六、基础实验结果

1 实验baseline设置

prompt方法：是指使用模板包装的示例直接执行零样本分类。
上下文学习（ICL）：测试样本之前进一步连接了一些示例。
BBT（Sun等人，2022b）使用进化算法优化soft prompt方法。
BBTv2（Sun等人，2022a）进一步将深度提示插入中间层，以获得更好的性能。
RLPrompt（Deng等人，2022年）是另一种最新的算法，通过强化学习优化离散提示。
PromptBoosting（Hou等人，2022年）是一项应用boosting算法应用到prompt ensembling。
backbone：roberta-large

2 zero-shot和few-shot实验结果

大部分zero-shot和few-shot效果都比之前的模型好，只有在MNLI数据集上，ICL的1-shot方法表现好一些，但是ICL由于输入长度限制，不可能输入非常多的样本。

3 与fine-tuning全量tuning对比

在一些难的任务上，训练数据在256个的时候，就搞不过fine-tuning了

七、消融实验结果

1 Protonet模型参数的影响（1、4、6是啥意思？）

发现s，r都有的时候，特别是1的时候，提升比较大。

2 选MLP还是ProtoNet作为模型呢？

ProtoNet在1-shot的时候，比MLP好的非常多，说明ProtoNet模型的few-shot能力还是比较强的

3 融合权重l的影响

说明l=1的时候，效果最好？

4 不同模板Template的影响

随便一个Template，DecT本文方法比Prompt方法都要高不少，说明本文方法的有效性。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。