- 博客(2)
- 收藏
- 关注
原创 Prefix Tuning、P-Tuning V1/V2基本原理总结
对于transformer的每一层 (不只是输入层,且每一层transformer的输入不是从上一层输出,而是随机初始化的embedding作为输入),都在真实的句子表征前面插入若干个连续的可训练的"virtual token" embedding,这些伪token不必是词表中真实的词,而只是若干个可调的自由参数。3.针对不同任务采用不同的提示长度。在实验中,我们发现不同的理解任务通常用不同的提示长度来实现其最佳性能,这与Prefix-Tuning中的发现一致,不同的文本生成任务可能有不同的最佳提示长度。
2024-01-25 15:24:19
1742
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人