RWKV-7 预览版已发布，真正超越 attention 范式

最新推荐文章于 2024-09-26 17:23:00 发布

RWKV元始智能

最新推荐文章于 2024-09-26 17:23:00 发布

阅读量590

点赞数 12

文章标签：人工智能语言模型自然语言处理图像处理 AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rwkvteam/article/details/142550855

版权

RWKV-7（代号 Goose 雁）预览版 RWKV-7 "Goose" x070.rc2-2409-2r7a-b0b4a 现已推出。

RWKV-7 超越了 attention / linear attention 范式，它的状态演化很灵活，可以解决在相同算力消耗下 attention 无法解决的问题。

RWKV-7 代码：https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v7
RWKV-7 模型（训练中）：https://huggingface.co/BlinkDL/temp-latest-training-models/tree/main

RWKV-7 "Goose" x070.rc2-2409-2r7a-b0b4a 的公式：

其中， $a_t$ 可看作 in-context learning rate。RWKV-7 拥有很强的 ICL 能力。

相对 RWKV-6 Finch ，RWKV-7 Goose 的训练 Loss 更低，且训练非常稳定：

RWKV-7 与 RWKV-6 的 Loss 曲线对比

对比 RWKV5/6

以下是 RWKV -7 对比历史版本（RWKV5/6）的改进：

RWKV-7 的核心机制代码

RWKV-7 的核心机制代码

RWKV-7 处于早期预览版本，当前 RWKV 的稳定版本仍然是 RWKV-6 Finch。

这里推荐一个基于 RWKV-6 的新项目：RWKV-nonogram，使用 RWKV-6 + Chain Of Thought 训练了一个 20M 参数 RWKV 模型，这个模型可以做数织(nonogram)任务。

数织是一种逻辑游戏，以猜谜的方式绘画黑白位图。在一个网格中，每一行和列都有一组数，玩家需根据它们来填满或留空格子，最后就可以由此得出一幅图画。

RWKV-nonogram 的 CoT 过程：

rwkv-nonograms

RWKV-nonogram 进行数织(nonogram)任务的可视化过程：

rwkv-nonograms-可视化

欢迎大家基于 RWKV-6 开展新项目或学术研究！

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构，它将 Transformer 与 RNN 各自的优点相结合，同时实现高度并行化训练与高效推理。

RWKV 中文官网（有多篇多模态论文）：https://rwkv.cn/
RWKV-5/6（Eagle & Finch）论文： https://arxiv.org/abs/2404.05892
RWKV-4 论文： https://arxiv.org/abs/2305.13048

欢迎大家加入 RWKV 社区！可以从 RWKV 中文官网了解 RWKV 模型，也可以加入我们的 QQ 频道和群聊，一起探讨 RWKV 模型。

QQ 频道：https://pd.qq.com/s/9n21eravc
QQ 交流群：224287095

RWKV元始智能

关注

12
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。