部署环境过程
使用lmdeploy直接对话
按照如下方法对模型量化,减少显存占用并提升速度,这里将教程的命令进行修改,模型换成量化后的,词库也进行更换,并调整最大显存占用。然后建立一个双端连接
新建终端作为客户端访问
与本地建立ssh连接后本地访问端口
使用python集成后运行量化模型,同样需要注意更改pipeline变量以及最大显存占比
部署环境过程
使用lmdeploy直接对话
按照如下方法对模型量化,减少显存占用并提升速度,这里将教程的命令进行修改,模型换成量化后的,词库也进行更换,并调整最大显存占用。然后建立一个双端连接
新建终端作为客户端访问
与本地建立ssh连接后本地访问端口
使用python集成后运行量化模型,同样需要注意更改pipeline变量以及最大显存占比