大模型本地部署

最新推荐文章于 2025-05-24 11:59:39 发布

Slender2001

最新推荐文章于 2025-05-24 11:59:39 发布

阅读量2.8k

点赞数 6

CC 4.0 BY-SA版权

文章标签：机器学习人工智能深度学习神经网络 transformer 语言模型大模型

本文链接：https://blog.csdn.net/DominaterWE/article/details/144168656

1.模型下载

以阿里通义千问模型Qwen-7B-Chat为例，首先需要下载通义千问的Qwen-7B-Chat的模型文件，其下载地址为阿里官方的大语言模型社区–魔搭ModelScope，Qwen-7B-Chat的详细下载地址为：https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary。
在这里插入图片描述

点击其中的模型文件，进入模型文件页面，之后点击右侧的下载模型。
在这里插入图片描述
SDK安装安装工具包下载。

设置模型的下载地址。

from modelscope import snapshot_download
model_dir = snapshot_download('qwen/Qwen-7B-Chat',cache_dir='自己的地址')

在这里插入图片描述

2.环境安装

为了运行之后本地部署的Qwen-7B-Chat模型，我们需要根据要求在Anaconda中安装一个满足模型运行要求的虚拟环境，其官方的配置环境要求如下，这里配置的环境为使用GPU Pytorch的版本。官网的要求如下。
在这里插入图片描述
第一步：安装modelscope可以用来下载模型。

pip install modelscope

第二步：安装通义千问官方说的运行Qwen-7B需要安装的依赖。
在这里插入图片描述

pip install transformers==4.32.0 accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed

3.本地部署

官方提供的测试代码：

from modelscope import AutoModelForCausalLM, AutoTokenizer
from modelscope import GenerationConfig

# Note: The default behavior now has injection attack prevention off.
tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen-7B-Chat", trust_remote_code=True)

# use bf16
# model = AutoModelForCausalLM.from_pretrained("qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval()
# use fp16
# model = AutoModelForCausalLM.from_pretrained("qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, fp16=True).eval()
# use cpu only
# model = AutoModelForCausalLM.from_pretrained("qwen/Qwen-7B-Chat", device_map="cpu", trust_remote_code=True).eval()
# use auto mode, automatically select precision based on the device.
model = AutoModelForCausalLM.from_pretrained("qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True).eval()

# Specify hyperparameters for generation. But if you use transformers>=4.32.0, there is no need to do this.
# model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-7B-Chat", trust_remote_code=True) # 可指定不同的生成长度、top_p等相关超参

# 第一轮对话 1st dialogue turn
response, history = model.chat(tokenizer, "你好", history=None)
print(response)
# 你好！很高兴为你提供帮助。

# 第二轮对话 2nd dialogue turn
response, history = model.chat(tokenizer, "给我讲一个年轻人奋斗创业最终取得成功的故事。", history=history)
print(response)
# 这是一个关于一个年轻人奋斗创业最终取得成功的故事。
# 故事的主人公叫李明，他来自一个普通的家庭，父母都是普通的工人。从小，李明就立下了一个目标：要成为一名成功的企业家。
# 为了实现这个目标，李明勤奋学习，考上了大学。在大学期间，他积极参加各种创业比赛，获得了不少奖项。他还利用课余时间去实习，积累了宝贵的经验。
# 毕业后，李明决定开始自己的创业之路。他开始寻找投资机会，但多次都被拒绝了。然而，他并没有放弃。他继续努力，不断改进自己的创业计划，并寻找新的投资机会。
# 最终，李明成功地获得了一笔投资，开始了自己的创业之路。他成立了一家科技公司，专注于开发新型软件。在他的领导下，公司迅速发展起来，成为了一家成功的科技企业。
# 李明的成功并不是偶然的。他勤奋、坚韧、勇于冒险，不断学习和改进自己。他的成功也证明了，只要努力奋斗，任何人都有可能取得成功。

# 第三轮对话 3rd dialogue turn
response, history = model.chat(tokenizer, "给这个故事起一个标题", history=history)
print(response)
# 《奋斗创业：一个年轻人的成功之路》