外推性
- 指我们在短序列上训练的模型,能否不用微调地用到长序列上并依然保持不错的效果。
之所以追求长度外推性:
- 一方面是理论的完备性,觉得这是一个理想模型应当具备的性质;
- 另一方面也是训练的实用性,允许我们以较低成本(在较短序列上)训练出一个长序列可用的模型;
对于Transformer模型来说,其长度的外推性是我们一直在追求的良好性质,它是指我们在短序列上训练的模型,能否不用微调地用到长序列上并依然保持不错的效果。之所以追求长度外推性,一方面是理论的完备性,觉得这是一个理想模型应当具备的性质,另一方面也是训练的实用性,允许我们以较低成本(在较短序列上)训练出一个长序列可用的模型。
下面我们来分析一下加强Transformer长度外推性的关键思路,并由此给出一个“超强基线”方案,然后我们带着这个“超强基线”来分析一些相关的研究工作。
思维误区 #
第一篇明确研究Transformer长度外推性的工作应该是