- 完成浦语·灵笔的图文理解及创作部署(需截图)
- 完成 Lagent 工具调用 Demo 创作部署(需截图)
- 对internlm-chat-7b模型进行量化,并同时使用KV Cache量化,使用量化后的模型完成API服务的部署,分别对比模型量化前后(将 bs设置为 1 和 max len 设置为512)和 KV Cache 量化前后(将 bs设置为 8 和 max len 设置为2048)的显存大小。
原模型占用14886MB
kv量化并没有省很多显存,占用大约14758MB
4bit量化显存占用5792MB
但模型性能下降太多