P-Tunning V2简单理解

之前看过P-tunning V2, 知道他的思想,最近突然想到了这件事,仔细看了一下他的代码实现,重新看了一遍,记录一下。
图片源于:https://zhuanlan.zhihu.com/p/423902902
在这里插入图片描述
P-Tunning V2的思路,仅仅通过微调连续的一些虚拟Token进行训练,固定模型的其它参数,从而实现低成本微调。但是P-Tunning V2采用一种模型内部继续微调,上图(b)所示,是一种深层的微调方式,而不是像P-Tunning v1,仅仅微调embeding 层的一些嵌入的虚拟Token,直观上理解,这种是一种比较浅层的方式。而P-tunning V2具体是怎么实现呢?可以参考,以下内容大量参考:P-tuning V2论文和代码实现解析

简单表述一下思路:

就是利用KVCache的方式进行深入微调

  • 确定微调参数数量
self.embedding = torch.nn.Embedding(
                config.pre_seq_len,
                config.num_hidden_layers * 2 * config.hidden_size)

pre_seq_len虚拟token数量
config.num_hidden_layers * 2 * config.hidden_size因为是深层的,和你模型层数是一致的,所以config.num_hidden_layers,2 其实表示深层微调,类似于KV的方式,所以是2,最后是隐藏层维度。

  • 将维度进行拆解,拆成KVCache的方式,利用past_key_values进行传参,从而是实现深度调参的方式,所谓深度调参即不仅仅局限于embedding 层的参数,我理解本质上就是嵌入层的参数,不过,他把虚拟token参与注意力的计算。

简单模拟一下:
原来的Q, K, V维度为:batch seq dim
通过past_key_values,则使K, V维度变为,batch new_seq(pre_seq_len+seq) dim
Q K T QK^T QKT维度为batch seq new_seq
Q K T V QK^TV QKTV batch seq dim
就是以上原理,从而实现深度调参。

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值