最近hybrid model的有效性已被广泛验证(比如minimax-01和gemma2等)。该篇论文研究了一个非常有趣的主题:如何将预训练好的dense transformer(如qwq)转化为hybrid model。具体来说,提出了一个轻量转化算法——LightTransfer💡,将50%层的full attention替换为sliding window attention。
作者:Wzl
来自:深度学习自然语言处理
链接:https://arxiv.org/abs/2410.13846
主页: https://sites.google.com/view/lighttransfer
动机和观察
(1)从什么角度实现?
一个高效且自然的建模方式:大规模预训练的LLM+少部分的修改+少部分的训练 -> Hybrid model。
一种直接且有效的做法:将full attention layers中部分standard attn layer替换为efficient attn layer。