1.通过W4A16量化与kv cache量化之前的占用: 2.通过W4A16量化与kv cache量化后的占用: 3.部署量化后的模型占用: 4. 量化对比(第一图为量化后,第二图为原模型) 5.部署量化后的模型