一步一步理解大模型:模型调优之P-Tuning

P-Tuning是一种提示调优方法,它固定预训练模型参数,通过学习的提示进行优化,降低计算成本。在情感分析任务中,通过添加提示向量并仅更新这些向量,辅助模型进行分类,而不是微调整个模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

P-Tuning就是提示调优(Prompt Tuning),主要思想是固定预训练模型的参数,然后在模型的输入端添加可学习的"prompt"(提示)进行调整。这种方法的优点是计算成本低,因为只需要更新少量的参数。它不改变模型,而是通过对提示的优化,让模型输出最佳的结果,相关论文可参考【1】。从原理上讲,是在已训练的模型L的外面再套上一个可训练的模型P,在不改变L的情况下通过优化P,让P(L)最优。因为L的输入实际上就是提示,所以叫提示调优。

提示调优可以通过手动实现(不推荐)也可以通过自动训练实现。

下面举一个简单的例子通过对比来看人们是如何发明提示调优的。

比如我们的任务是情感分析,即给定一段文本,确定其情感是正面还是负面。

传统微调方法:

  1. 使用一个预训练的语言模型,如GPT。
  2. 在情感分析的训练数据上进行微调。
  3. 使用一个线性分类层,根据微调后的模型输出来进行情感分类。

静态提示训练:

  1. 首先,初始化一个或多个“提示”向量。这些向量可以随机初始化,或者使用一些先验知识来初始化。

  2. 在每个输入文本前加上一个“提示标记”。例如,我们可以添加一个“[SENTIMENT]”标记,然后紧跟原始文本。如:“[SENTIMENT] This movie is great!”

  3. 将这些“提示标记”与对应的提示向量关联起来。也就是说,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值