深度学习自然语言处理 分享
作者:PENG Bo
感谢关注,下面是RWKV的在线体验网址(在线是单轮。多轮可以自己部署,效果也很好):
问答,英文14B:ChatRWKV - a Hugging Face Space by BlinkDL[1]
问答,英文7B:Raven RWKV 7B - a Hugging Face Space by BlinkDL[2]
问答,中文7B:RWKV-4-Raven-7B[3]
中文请用中文模型,英文请用英文模型。目前英文模型强很多,因为目前中文模型是从英文模型+少量中文语料微调的。正在炼真正的多语言基底模型。
英文14B的效果例子,输入公式(TeX),输出代码:
中文小说续写,均衡文风:ModelScope 魔搭社区[4]
中文小说续写,小白文风:ModelScope 魔搭社区[5]
中文小说续写,专业文风:ModelScope 魔搭社区[6]
本地部署:
请先体验 ChatRWKV,因为目前大多数第三方实现有性能和速度的 bug。例如 HF rwkv package 仍有 bug。使用请设置正确 strategy,并编译 CUDA 算子,这对于运行速度极其重要。
教程:发布几个RWKV的Chat模型(包括英文和中文)7B/14B欢迎大家玩[7]
下面两个懒人包可能有小bug,不过已有很多用户,所以没有大bug:
懒人包1:RWKV-Runner发布并开源,可商用的大语言模型,一键启动管理,2-32G显存适配,API兼容,一切前端皆可用[8]
懒人包2:ChatRWKV教程与工具[9]
请务必用最新和正确的模型。例如Raven是v某某,某某越大越新。注意语言比例需要正确,例如中文模型是Chn49%。
后续欢迎大家来玩的:
可解释性,可视化。由于RWKV作为RNN有明确的固定大小state,可以做许多transformer做不到的事情。例如,我们可以直接分析理解和操纵RWKV的状态,还可以直接做高效P-tuning。
多模态。state是优质的嵌入(注意区分 x a b p)。
量化,稀疏,端侧高速运行。
插件,向量数据库,检索增强,AutoGPT等等。
另外大家记得看论文附录,例如这些都在附录:
知乎:PENG Bo
链接:https://www.zhihu.com/question/602564718/answer/3042600470
分享
收藏
点赞
在看