RWKV入门

主要参考资料
B站视频《【项目原作解读】RWKV Foundation侯皓文:新型RNN模型RWKV,结合Transformer的并行化训练优势和RNN的高效推理》
RWKV官网: https://www.rwkv.com/
RWKV-6 3B(2.5T Tokens)模型于4月18日开源: https://mp.weixin.qq.com/s/DeSTQFRq2DGgF7Kj9XsQPA

前言

RNN无法并行化,Transformer的二次复杂度,RWKV的改善。
请添加图片描述

RWKV由来

RNN的局限是无法进行并行化训练,相较Transformer处于劣势。
请添加图片描述

继《Attention is all you need》横空出世后,针对Transformer的二次Attention,苹果提出AFT的线性Attention,RWKV受苹果启发,提出时间衰减向量的概念。
请添加图片描述

模型架构

一个Embeding Input进入RWKV,首先会进入Time-mixing模块,会跟之前的文本信息进行一次融合。之后是channel-mixing模块,会对每个词的channel进行混合和非线性,增强非线性能力。
在这里插入图片描述

关键结果

在LAMBADA测试集中,RWKV的劣势在参数量小的时候,与Transformer有一定的差距,因为Transformer可以将过去的数据集都拉出来重算一遍。
但是在7B时RWKV已经接近Tranformer,14B时已经不相上下。因此从模型角度RWKV更有优势。
PS:但是GPT-3已经是175B的数据量了。。。
GPT:无所谓,我有钱
在这里插入图片描述

再次重申,RWKV的优越性,时间复杂度更低。
在这里插入图片描述

数据量7B的RWKV至少需要CPU内存12GB 或者 显卡显存9GB。。。
在这里插入图片描述

劣势

RNN的特性,让RWKV在对前文的记忆很差,因此需要精心设计prompt。
在这里插入图片描述

未来展望

(1)RWKV可以进一步提高效率(遗忘是不是更严重?)
(2)增加多模态,现在只是decoder
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值