causallm不适用于上下文学习
原创 森本悟 无数据不智能 2023-08-16 23:42 发表于广东
概述
该文研究的背景是在上下文学习中,基于Transformer的prefixLM模型在性能上优于使用自回归注意力机制的causalLM模型。
过去的方法中,主要使用的是causalLM模型,其采用自回归的注意力机制,限制了上下文样本之间的相互关注。由于这种限制,限制了模型的能力。因此,自然而然地提出了prefixLM模型,允许上下文样本之间进行全局的注意力。这种方法在直觉上是合理的,并在实证研究中取得了良好的表现。
本文采用理论分析的方法,通过对prefixLM和causalLM在特定参数构建下的收敛行为进行分析。研究结果表明,虽然两种语言模型的收敛速率是线性的,但是prefixLM模型收敛到线性回归的最优解,而causalLM模型的收敛动态遵循在线梯度下降算