RWKV是一个结合了RNN与Transformer双重优点的模型架构。由香港大学物理系毕业的彭博首次提出。简单来说,RWKV是一个RNN架构的模型,但是可以像transformer一样高效训练。今天,HuggingFace官方宣布在transformers库中首次引入RNN这样的模型,足见RWKV模型的价值。本文来自DataLeaner官方博客HuggingFace宣布在transformers库中引入首个RNN模型:RWKV,一个结合了RNN与Transformer双重优点的模型 | 数据学习者官方网站(Datalearner)
同时,在LM-Sys官方的匿名模型battle中,目前RWKV-4-Raven-14B排名第六,仅次于Koala-13B,好于Oasst-Pythia-12B,也能看到普通用户对其的认可。
本文将简要介绍一下RWKV模型以及如何使用。
- RNNs与Transformers各自的特点
- RWKV模型简介
- 基于RWKV思想的开源模型
- RWKV-4系列模型的训练成本与速