目录
介绍
RWKV是一个开源且允许商用的大语言模型,灵活性很高且极具发展潜力。
关于本工具
本工具旨在降低大语言模型的使用门槛,做到人人可用,本工具提供了全自动化的依赖和模型管理,你只需要直接点击运行,跟随引导,即可完成本地大语言模型的部署,工具本身体积极小,只需要一个exe即可完成一键部署。
此外,本工具提供了与OpenAI API完全兼容的接口,这意味着你可以把任意ChatGPT客户端用作RWKV的客户端,实现能力拓展,而不局限于聊天。
底部的预设配置规则
本工具内置了一系列预设配置,以降低使用难度,每个配置名的规则,依次代表着:设备-所需显存/内存-模型规模-模型语言。
例如,GPU-8G-3B-CN,表示该配置用于显卡,需要8G显存,模型规模为30亿参数,使用的是中文模型。
模型规模越大,性能要求越高,显存要求也越高,而同样模型规模的配置中,显存占用越高的,运行速度越快。
例如当你有12G显存,但运行GPU-12G-7B-CN配置速度比较慢,可降级成GPU-8G-3B-CN,将会大幅提速。
关于RWKV
RWKV是具有Transformer级别LLM性能的RNN,也可以像GPT Transformer一样直接进行训练(可并行化)。而且它是100% attention-free的。你只需在位置t处获得隐藏状态即可计算位置t + 1处的状态。你可以使用“GPT”模式快速计算用于“RNN”模式的隐藏状态。
因此,它将RNN和Transformer的优点结合起来 - 高性能、快速推理、节省显存、快速训练、“无限”上下文长度以及免费的语句嵌入(使用最终隐藏状态)。
下载
RWKV-Runner
源码: https://github.com/josStorer/RWKV-Runner
进入后,依据平台选择
下载完成后,打开即可。
依赖安装
想要本地模型跑起来,需安装依赖。此处仅讲配置模型的依赖安装,训练模型的依赖安装请参考官方文档。
1、为方便使用、管理,下载到exe后需建立英文目录专属文件夹,以存储相关数据、依赖、模型等。
2、首次打开 RWKV Runner 软件时,点击 “运行” 按钮,会提示缺失 Python 等依赖项,跟随引导点击 “安装”, 会自动下载并安装所需的文件。
安装时间可能过久,需保持网络畅通。如本地有安装python环境,无需担心,也无需设置。自动安装的python依赖位于exe文件所处文件夹的py310文件夹下。
3、下载完成并启动后,文件夹应该会具有以下标准的环境目录:
models 文件夹存放 RWKV 模型,RWKV Runner 默认从此文件夹读取本地 RWKV 模型。
启动环境只需在首次启动 RWKV Runner 时配置一次。
使用
注意事项:
1.聊天、续写、作曲必须先启动模型,可在主页/配置页面启动模型。
2.模型启用需先选择模型下载(转下文第5点),下载到本地后再配置运行。
1、聊天
首先模型已启动,输入内容即可回答。
首次回答可能会比较慢,点击重试AI会自动重新回答。
参数可自行调试修改。
2、续写
首先模型已启动,输入内容即可生成。
可依次选择类型,参数可自行调试修改。
写作:
翻译:
猫娘:
(ps:搞不懂,福瑞控?)
情境冒险:
代码生成:
狼人杀:
其他:
也可根据自我需要,自行输入指令调整。当然密不可分的是训练模型与指令的匹配程度。
3、作曲
作曲可参考官方文档https://github.com/josStorer/RWKV-Runner/blob/master/README_ZH.md
笔者未作曲过,仅展示页面。
4、配置
参数可不动,如需更改可依照提示更改。鼠标移动即可看到
Strategy NVIDIA可默认选择cuda,其他的笔者试过均不如cuda响应快,或多或少存在问题。
配置好后点击运行,等待CMD窗口报200状态码即可开始使用。
5、模型
本身runner自带众多模型下载。更多模型可在https://huggingface.co/网站中搜索,如RWKV-4\RWKV-5等等。
须知:使用模型不能仅看文件大小,需依照自身电脑硬件条件选择。
我本地电脑CPU为 AMD Ryzen7 5800h,显卡为:NVIDIA RTX3060 Laptop ,GPU显存:6g,内存:16g
建议:硬件较弱情况下选择1.5B模型,硬件和我一致可选3B模型,硬件更好可选7B模型。至于更大的12B、14B笔者未实际跑过。
模型可打开本地文件夹管理下载完成的模型文件,也可去跳转到源网站。
下载完成后需要配置。
问答:
1、这套配置能不能跑7b?
能,但是很慢。综合体验下来3B的启动速度、续写响应速度适中。7b体验较差,续写速度慢,资源占比多,可放在凌晨或空闲时间跑。
2、1.5b,3b,7b区别在哪里?
区别:
1.占用资源不一样,1.5b,甚至更低0.1b可轻松跑。7b续写时基本GPU占用100%。
2.启动资源不一样,3b、7b启动时要求资源较多,7b甚至要求调整电脑虚拟内存空间。否则内存会全部吃尽(仅以16G为例子,其他软件过多也会影响占用)。
3.上下文的连续程度、语义的理解程度、偏离程度,均各不相同。且发散性也不同,相同配置项的情况下,1.5b可能10次才2-3次续写不同场景,3b、7b依次增加。但也根据配置项不同而不同。
3、AI能写出或者产生好的回答吗?
首先我个人理解,是可以的。一方面与训练量大小相关,越大则质量越高。越小则越低。7b质量就比3b高。
其次再一方面与个人的配置调教相关,如何在已有模型下调试出尽可能好的、符合个人审美的回答,还是要尽可能多、重复的尝试,多组合、记录,逐渐找到更完善的。
6、下载
仅存放从模型处点击下载的待下载文件。下载完成后会放在models文件下
总结
AI飞速发展,一定程度上解放了人类双手,快速答疑、快速响应的背后离不开持久的训练、优化。获得高水平的回答要寻求合适的模型,写作来写作,作曲来作曲。
其次,硬件资源制约了AI训练、启动、响应速度,普通人只得不断调试,在已有硬件条件下寻求最优解。
最后期望模型可一步步优化,提升资源利用率。希望普通人也能享受AI带来的科技红利。
最最重要的要感谢B站UP国服第一海豹,关于RWKV-Runner我翻阅了众多视频、资料等,他的回答在全网上最详尽、详细。本人回答不过锦上添花。