【项目实训】基于大模型的小学语数英辅助教育平台 | Prefix调研（5）

最新推荐文章于 2024-11-06 16:56:15 发布

Licky冰

最新推荐文章于 2024-11-06 16:56:15 发布

阅读量410

点赞数 4

文章标签：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_64369373/article/details/139335310

版权

prefix tuning

[2101.00190] Prefix-Tuning: Optimizing Continuous Prompts for Generation (arxiv.org)

之前的工作：prompt tunning，人工设计模板（离散模板），鲁棒性差

这种方法是对大型预训练语言模型（LMs）进行微调的一种替代方案，它在保持语言模型参数不变的情况下，只优化一个小型的连续任务特定向量（称为前缀）。前缀调优的灵感来源于提示（prompting），允许后续的token将这个前缀视为“虚拟token”。作者将前缀调优应用于GPT-2的表格到文本生成任务和BART的摘要生成任务。

定义

在模型输入前添加一个连续的且任务特定的向量序列(prefix)，将token构造成一段任务相关的virtual tokens，固定PLM参数只优化特定任务prefix（离散→连续）

prefix是模块化的，LM不变但是可以支持多个不同的任务

问题陈述

一个生成任务，输入context x，输出y是一个token序列，主要关注两个任务：

table-to-text：x对应于线性化数据表，y是文本描述

总结任务：x是文章，y是简短摘要

实验设置

使用了三个标准的神经生成数据集来评估表格到文本任务，以及XSUM数据集来评估摘要生成任务。

主要结果

前缀调优在表格到文本生成任务中表现出色，即使只学习了0.1%的参数，也能达到与全参数微调相当的表现。在低数据设置下，前缀调优平均优于微调。此外，前缀调优在处理未见过的主题的泛化能力上也表现更好。

内在评估

研究了前缀长度、仅调整嵌入层、前缀与内缀的比较以及不同的前缀初始化策略对性能的影响。

讨论

讨论了前缀调优的一些优点，如个性化和跨用户批处理的能力，以及前缀调优的归纳偏差。

结论

前缀调优是一种有效的轻量级微调替代方案，它在全数据设置下能够保持与微调相当的表现，在低数据和泛化设置下胜过微调。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。