LightTransfer:将你的LLM轻松转为Hybrid model,增强o1-like长文本生成能力

最近hybrid model的有效性已被广泛验证(比如minimax-01和gemma2等)。该篇论文研究了一个非常有趣的主题:如何将预训练好的dense transformer(如qwq)转化为hybrid model。具体来说,提出了一个轻量转化算法——LightTransfer💡,将50%层的full attention替换为sliding window attention。

9711c07ea8a8011cf1ddb82f8723d648.png

作者:Wzl
来自:深度学习自然语言处理
链接:https://arxiv.org/abs/2410.13846
主页: https://sites.google.com/view/lighttransfer

动机和观察

(1)从什么角度实现?

  • 一个高效且自然的建模方式:大规模预训练的LLM+少部分的修改+少部分的训练 -> Hybrid model。

  • 一种直接且有效的做法:将full attention layers中部分standard attn layer替换为efficient attn layer。

(2)efficient attn layer实现?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值