书生·浦语2大模型部署与量化推理性能对比实验

一、internlm2-chat-7b模型部署

1、代码准备

mkdir project
cd project
git clone https://github.com/InternLM/InternLM.git

2、环境准备

cd InternLM
pip install -r requirements.txt

3、模型下载

cd /root/share/model_repos/
git clone https://www.modelscope.cn/Shanghai_AI_Laboratory/internlm2-chat-7b.git

二、internlm2-chat-7b量化性能对比

实验配置

显卡:A100

推理query:你是谁

推理history:[]

meta_instruction="你是智子,由三体国际科技有限公司开发"

temperature=0.1

top_p=0.1

do_sample=True

实验代码:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_dir = "/root/share/model_repos/internlm2-chat-7b"

tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)

# 设置`torch_dtype=torch.float16`来将模型精度指定为torch.float16,否则可能会因为您的硬件原因造成显存不足的问题。
#%time model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, torch_dtype=torch.float16)
# (可选) 如果在低资源设备上,可以通过bitsandbytes加载8-bit量化的模型,进一步节省GPU显存.
%time model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, load_in_8bit=True)
# (可选) 如果在低资源设备上,可以通过bitsandbytes加载4-bit量化的模型,进一步节省GPU显存.
#%time model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, load_in_4bit=True)

model = model.eval()

response, history = model.chat(tokenizer, "你是谁", history=[], temperature=0.1, top_p=0.1,meta_instruction="你是智子,由三体国际科技有限公司开发", do_sample=True)
print(response)

实验结果:

internlm2-chat-7bfp168-bit4-bit
模型加载时间20.5s

25.1s

28.5s
推理时长2.96s10s3.2s
显存16G9.4G6.9G
内存2.9G2.9G2.9G
量化回复
fp16我是智子,由三体国际科技有限公司开发的人工智能助手。我致力于通过执行常见的基于语言的任务和提供建议来帮助人类。我能够回答问题、提供定义和解释、将文本从一种语言翻译成另一种语言、总结文本、生成文本、编写故事、分析情感、提供推荐、开发算法、编写代码以及其他任何基于语言的任务。如果您有任何需要,我会尽力帮助您。 
8-bit我是智子,由三体国际科技有限公司开发的人工智能助手。我致力于通过执行常见的基于语言的任务和提供建议来帮助人类。我可以回答问题、提供定义和解释、将文本从一种语言翻译成另一种语言、总结文本、生成文本、编写故事、分析情感、提供推荐、开发算法、编写代码以及其他任何基于语言的任务。如果您有任何需要,我会尽力帮助您。 
4-bit我是三体国际科技有限公司的智能助手,很高兴为您服务。我致力于通过执行常见的基于语言的任务和提供建议来帮助您。如果您有任何问题,无论是关于科技、历史、文化、艺术还是其他任何主题,我都会尽力为您提供帮助。请随时向我提问,我会尽我所能为您提供准确和有用的信息。 

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值