P-Tunning V2简单理解

Re:fused

已于 2024-03-17 21:11:19 修改

阅读量1k

点赞数 6

文章标签：人工智能

于 2024-03-14 23:29:18 首次发布

本文链接：https://blog.csdn.net/REfusing/article/details/136724679

版权

本文介绍了P-tunningV2的思想，它通过微调连续的虚拟Token并在模型内部进行深层调整，不同于P-tunningV1的浅层方式。作者详细解释了如何利用KVCache机制实现深层参数调整，扩展了嵌入层之外的参数空间，以提高模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前看过P-tunning V2, 知道他的思想，最近突然想到了这件事，仔细看了一下他的代码实现，重新看了一遍，记录一下。
图片源于：https://zhuanlan.zhihu.com/p/423902902
在这里插入图片描述
P-Tunning V2的思路，仅仅通过微调连续的一些虚拟Token进行训练，固定模型的其它参数，从而实现低成本微调。但是P-Tunning V2采用一种模型内部继续微调，上图（b）所示，是一种深层的微调方式，而不是像P-Tunning v1,仅仅微调embeding 层的一些嵌入的虚拟Token，直观上理解，这种是一种比较浅层的方式。而P-tunning V2具体是怎么实现呢？可以参考，以下内容大量参考：P-tuning V2论文和代码实现解析

简单表述一下思路：

就是利用KVCache的方式进行深入微调

确定微调参数数量

self.embedding = torch.nn.Embedding(
                config.pre_seq_len,
                config.num_hidden_layers * 2 * config.hidden_size)

pre_seq_len虚拟token数量
config.num_hidden_layers * 2 * config.hidden_size因为是深层的，和你模型层数是一致的，所以config.num_hidden_layers，2 其实表示深层微调，类似于KV的方式，所以是2，最后是隐藏层维度。

将维度进行拆解，拆成KVCache的方式，利用past_key_values进行传参，从而是实现深度调参的方式，所谓深度调参即不仅仅局限于embedding 层的参数，我理解本质上就是嵌入层的参数，不过，他把虚拟token参与注意力的计算。

简单模拟一下：
原来的Q, K, V维度为：batch seq dim
通过past_key_values，则使K， V维度变为，batch new_seq(pre_seq_len+seq) dim
$QK^T$ 维度为batch seq new_seq
$QK^TV$ batch seq dim
就是以上原理，从而实现深度调参。