RWKV-6 1.6B（2.5T Tokens）模型于3月29日开源

本文链接：https://blog.csdn.net/rwkvteam/article/details/137343714

2024 年 3 月 29 日，RWKV 开源基金会宣布正式向全球开源 RWKV-6 1.6B（2.5T Tokens）模型。

相比 2 月 9 日发布的 RWKV-6 Finch 1.6B ，最新发布的 RWKV-6 1.6B（2.5T Tokens）模型在训练过程中额外增加了 1.4T tokens 语料，这使得 RWKV-6 1.6B（2.5T Tokens）在多个任务的表现更出色。

评测数据

本次模型基准测试涵盖了 16 款接近 1.5B 参数规模的开源大语言模型，包括 RWKV 系列中的前代架构，如 RWKV-4 和 RWKV-5，也包括此前发布的 RWKV-6 Finch 1.6B。

在测试中，英语的性能测试将通过 12 个独立的基准测试来衡量大模型在常识推理和世界知识等英语内容上的表现。

多语言能力的评估中，则采用了 xLAMBDA、xStoryCloze、 xWinograd 和 xCopa 四种基准测试，深度探索了评估模型在多语言环境中的逻辑推理、故事理解、歧义解决和因果推理能力。

可以看到，在增加了 1.4T tokens 的情况下，RWKV-6 1.6B（2.5T Tokens）在基准测试中的英文性能比前面发布的 RWKV-6 Finch 1.6B 有一定提升，多语言性能则获得微量提升，展示了 RWKV 模型的 data scaling 性能。

值得注意的是，我们在训练 RWKV 时并未加入这些测试的训练集。换言之，我们没有为获取更佳的评分结果而进行特殊优化。因此，RWKV 模型的能力实际上是比它的评分排行更强的。

任务效果

我们对 RWKV-6 1.6B（2.5T Tokens）模型进行了续写、翻译等多种类型的任务测试，任务内容涵盖英语、日语、西班牙语等多种全球语种。

以下是任务的实际效果：（黄色背景部分为输入给模型的 prompts ，后为模型的输出）

由上图可见，RWKV-6 1.6B（2.5T Tokens）模型在多种语言混合的任务中表现出色。

值得一提的是，用于训练新模型的 2.5 T tokens 语料中只有少量翻译数据，但 RWKV-6 1.6B（2.5T Tokens）模型仍然可以准确地翻译很多未学习的内容，证明模型拥有较强的泛化能力。

模型试玩 & 下载

在线 Demo：

https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-1

下载地址：

https://huggingface.co/BlinkDL/rwkv-6-world/blob/main/RWKV-x060-World-1B6-v2.1-20240328-ctx4096.pth

💡由于 Hugging Face 的在线 Demo 是续写模式，如果你在 RWKV-Gradio-1 中体验 RWKV-6 1.6B（2.5T Tokens）模型，我们建议您按以下两种格式输入提示词（prompts） :

User: hi

Assistant: Hi. I am your assistant and I will provide expert full response in full details. Please feel free to ask any question and I will always answer it.

User: (你的问题，比如“東京で訪れるべき素晴らしい場所とその紹介をいくつか挙げてください。” )

Assistant:

运行效果：

Instruction: （你希望模型进行什么操作，比如:Write a story using the following information.）

Input:（提供给模型用于操作的材料，比如:A man named Alex chops a tree down.）

Response:

运行效果：

新模型预告

我们正在将 RWKV-5 7B 模型升级为 RWKV-6 7B (2.5T)，对比 RWKV-5 7B，目前升级进度 10% 的 RWKV-6 7B (2.5T) 模型已有显著提升。

RWKV-6 7B (2.5T) 预计在 5 月中旬升级完成，我们将在完成升级的第一时间与大家分享新模型。

RWKV 模型介绍

RWKV 是一种创新的深度学习网络架构，它将 Transformer 与 RNN 各自的优点相结合，同时实现高度并行化训练与高效推理，时间复杂度为线性复杂度，在长序列推理场景下具有优于 Transformer 的性能潜力。相对 Transformer 架构，RWKV 架构的推理成本降低 2~10 倍，训练成本降低 2~3 倍。