深度学习自然语言处理 分享
作者:PENG Bo
后台回复RWKV,进入项目参与者所在的RWKV群一起探讨!
感谢关注,下面是RWKV的在线体验网址(在线是单轮。多轮可以自己部署,效果也很好):
问答,英文14B:ChatRWKV - a Hugging Face Space by BlinkDL[1]
问答,英文7B:Raven RWKV 7B - a Hugging Face Space by BlinkDL[2]
问答,中文7B:RWKV-4-Raven-7B[3]
中文请用中文模型,英文请用英文模型。目前英文模型强很多,因为目前中文模型是从英文模型+少量中文语料微调的。正在炼真正的多语言基底模型。
英文14B的效果例子,输入公式(TeX),输出代码:
中文小说续写,均衡文风:ModelScope 魔搭社区[4]
中文小说续写,小白文风:ModelScope 魔搭社区[5]
中文小说续写,专业文风:ModelScope 魔搭社区[6]
本地部署:
请先体验 ChatRWKV,因为目前大多数第三方实现有性能和速度的 bug。例如 HF rwkv package 仍有 bug。使用请设置正确 strategy,并编译 CUDA 算子,这对于运行速度极其重要。
教程:发布几个RWKV的Chat模型(包括英文和中文)7B/14B欢迎大家玩[7]
下面两个懒人包可能有小bug,不过已有很多用户,所以没有大bug:
懒人包1:RWKV-Runner发布并开源,可商用的大语言模型,一键启动管理,2-32G显存适配,API兼容,一切前端皆可用[8]
懒人包2:ChatRWKV教程与工具[9]
请务必用最新和正确的模型。例如Raven是v某某,某某越大越新。注意语言比例需要正确,例如中文模型是Chn49%。
后续欢迎大家来玩的:
可解释性,可视化。由于RWKV作为RNN有明确的固定大小state,可以做许多transformer做不到的事情。例如,我们可以直接分析理解和操纵RWKV的状态,还可以直接做高效P-tuning。
多模态。state是优质的嵌入(注意区分 x a b p)。
量化,稀疏,端侧高速运行。
插件,向量数据库,检索增强,AutoGPT等等。
另外大家记得看论文附录,例如这些都在附录:
知乎:PENG Bo
链接:https://www.zhihu.com/question/602564718/answer/3042600470
推荐阅读
RWKV论文燃爆!将RNN崛起进行到底!可扩百亿级参数,与Transformer表现相当!
后台回复RWKV,进入项目参与者所在的RWKV群一起探讨!
进NLP群—>加入NLP交流群
参考资料
[1]
ChatRWKV: https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio
[2]RWKV 7B: https://huggingface.co/spaces/BlinkDL/Raven-RWKV-7B
[3]RWKV-4-Raven-7B: https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B
[4]均衡文风: https://modelscope.cn/studios/BlinkDL/RWKV-CHN/summary/
[5]小白文风: https://modelscope.cn/studios/BlinkDL/RWKV-CHN-2/summary
[6]专业文风: https://modelscope.cn/studios/BlinkDL/RWKV-CHN-PRO/summary
[7]发布几个RWKV的Chat模型(包括英文和中文)7B/14B欢迎大家玩: https://zhuanlan.zhihu.com/p/618011122
[8]RWKV-Runner发布并开源,可商用的大语言模型,一键启动管理,2-32G显存适配,API兼容,一切前端皆可用: https://zhuanlan.zhihu.com/p/631604313
[9]ChatRWKV教程与工具: https://www.zhihu.com/column/c_1632551608285089792