RWKV-7 预览版已发布,真正超越 attention 范式

RWKV-7(代号 Goose 雁)预览版 RWKV-7 "Goose" x070.rc2-2409-2r7a-b0b4a 现已推出。

RWKV-7 超越了 attention / linear attention 范式,它的状态演化很灵活,可以解决在相同算力消耗下 attention 无法解决的问题。

  • RWKV-7 代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v7
  • RWKV-7 模型(训练中):https://huggingface.co/BlinkDL/temp-latest-training-models/tree/main

RWKV-7 "Goose" x070.rc2-2409-2r7a-b0b4a 的公式:

其中, a t a_t at 可看作 in-context learning rate。RWKV-7 拥有很强的 ICL 能力。

相对 RWKV-6 Finch ,RWKV-7 Goose 的训练 Loss 更低,且训练非常稳定:

RWKV-7 与 RWKV-6 的 Loss 曲线对比

对比 RWKV5/6

以下是 RWKV -7 对比历史版本(RWKV5/6)的改进:

RWKV-7 的核心机制代码

RWKV-7 的核心机制代码


RWKV-7 处于早期预览版本,当前 RWKV 的稳定版本仍然是 RWKV-6 Finch。

这里推荐一个基于 RWKV-6 的新项目:RWKV-nonogram,使用 RWKV-6 + Chain Of Thought 训练了一个 20M 参数 RWKV 模型,这个模型可以做数织(nonogram)任务。

数织是一种逻辑游戏,以猜谜的方式绘画黑白位图。在一个网格中,每一行和列都有一组数,玩家需根据它们来填满或留空格子,最后就可以由此得出一幅图画。

RWKV-nonogram 的 CoT 过程:

rwkv-nonograms

RWKV-nonogram 进行数织(nonogram)任务的可视化过程:

rwkv-nonograms-可视化

欢迎大家基于 RWKV-6 开展新项目或学术研究!

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理。

  • RWKV 中文官网(有多篇多模态论文):https://rwkv.cn/
  • RWKV-5/6(Eagle & Finch)论文: https://arxiv.org/abs/2404.05892
  • RWKV-4 论文: https://arxiv.org/abs/2305.13048

欢迎大家加入 RWKV 社区!可以从 RWKV 中文官网了解 RWKV 模型,也可以加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。

  • QQ 频道:https://pd.qq.com/s/9n21eravc
  • QQ 交流群:224287095
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值