第十二篇-Tesla P40+ModelScope+Gradio+QWen+MindChat

木卫二号Coding

已于 2023-09-28 10:47:08 修改

阅读量683

点赞数 1

分类专栏： AI-LLM-实战文章标签： chatgpt 人工智能

于 2023-08-30 00:09:46 首次发布

本文链接：https://blog.csdn.net/hai4321/article/details/132572377

版权

AI-LLM-实战专栏收录该内容

40 篇文章 25 订阅

订阅专栏

本文主要实现Qwen-7B-Chat与MindChat-Qwen-7B的简单部署与测试

环境

  系统：CentOS-7
  CPU: 14C28T
  显卡：Tesla P40 24G
  驱动: 515
  CUDA: 11.7
  cuDNN: 8.9.2.26

创建环境

conda create --name qwen-chat python=3.10
conda activate qwen-chat

克隆项目

git clone https://github.com/lvxy/qwen-chat-gradio.git
cd qwen-chat-gradio

安装依赖

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装依赖-量化依赖库

pip install bitsandbytes -i https://pypi.tuna.tsinghua.edu.cn/simple

load_in_8bit=True量化加载模型，节省显存

运行

python webui_qwen.py
或者
python webui_mind.py

通过ModelScope下载模型，下载速度还是很好的，下载模型完成，需要一些时间
1.Qwen-7B-Chat 大概15G
2.MindChat-Qwen-7B 大概14G

访问使用

http://127.0.0.1:7860

可以使用体验了

本文参考
https://github.com/X-D-Lab/MindChat/blob/main/webui_demo.py

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

木卫二号Coding

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度

木卫二号的专栏

04-27

1213

Tesla-P40还是挺令我惊讶的，14B模型速度还是非常好的，有机会大家可以用来试试。

大模型微调---qwen实战

最新发布

qq_42178122的博客

08-30

1148

Qwen是阿里云开发的大语言模型，整个qwen系列的模型，由base模型、rm模型、chat模型、code模型、math模型等等。qwen采用chatml样式的格式来进行模型训练，chatml格式可以时模型有效区分各类信息，可以增强模型对复杂会话的处理分析能力。对于每个问题，给出若干答案，然后工人进行排序，而奖励模型就是利用排序的结果来进行反向传播。

参与评论您还未登录，请先登录后发表或查看评论

有手就行，轻松本地部署 Llama、Qwen 大模型，无需 GPU

weixin_59191169的博客

07-24

1122

没有消费级的 GPU，竟然都可以拥有自己的本地大模型。部署过程基本上没有卡点，一台普通的 Mac 就能搞定，太香了~

麒麟系统SP2 与昇腾300I芯片测试qwen7B模型记录

梦想是要有的，万一实现了呢！

12-19

1906

该系统可以做简单的算法模型，主要是架构不同，需要重新写算法，可以安装pytorch、tensorflow和mindformers等。官网给出支持昇腾910架构，刚好有300I资源，测试一下，给大家提供参考~~菜鸟一枚还需向各位大佬学习。3. 配置docker，有两种配置方法，一种在官网下载，一种直接用命令yum 安装即可。报错信息，应该是和配置芯片架构中缺少的文件，当前不做深入探究。6.没有使用教程启动docker的命令，使用以下命令。5.按照教程配置，这里不做详细介绍了，直接给出记录。

本地部署 Qwen-Agent

engchina的专栏

10-04

3826

本地部署 Qwen-Agent

阿里通义千问：本地部署Qwen1.5开源大模型

m0_37559973的博客

06-06

3869

通义千问为阿里云研发的大语言系列模型。千问模型基于Transformer架构，在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在预训练模型的基础之上，使用对齐机制打造了模型的chat版本。

配置腾讯云gn5 Ubuntu16.04+Tesla P40+CUDA9.0+CUDNNV7.1.4.5+Tensorflow 1.12.0

AJtyles的博客

11-04

1085

用mobaxterm登录远程SSH服务器，输入ip地址和对应用户名密码。

英伟达 NVIDIA-Tesla-P40 GPU 直透

weixin_45656953的博客

04-29

3396

Vsphere NVIDIA–Tesla–P40 GPU 直透文章目录Vsphere NVIDIA--Tesla--P40 GPU 直透准备环境Vsphere设置直透模式虚拟机在Vsphere上面新增一台虚机显卡驱动下载驱动安装删除旧的驱动禁止自带的nouveau nvidia驱动查看合适的驱动版本安装验证结果准备环境物理 vsphere 平台 4 张P40 GPU卡虚拟机 Ubuntu 18.04.5 LTS系统 Vsphere 设置直透模式 Vsphere页面设置直透连上服务器验证

大模型微调-在3090+A100+H100上微调Mistra-7B大模型-附流程教程+项目源码-优质大模型项目分享.zip

05-16

- **NVIDIA A100**：属于Tesla系列，是为数据中心和AI计算设计的专业级GPU，具备高带宽内存和Tensor Cores，专为加速AI、高性能计算和大数据分析而设计。 - **NVIDIA H100**：这是最新的数据中心GPU，专为AI训练、...

基于tensorflow-gpu + E5 CPU + GTX1660 SUPER + TESLA-P40 显卡安装CUDA(11.8.0)

HanKiKi的开发之旅

02-26

3519

基于tensorflow-gpu + E5 CPU + GTX1660 SUPER + TESLA -P40显卡安装CUDA(11.8.0)

英文-NVIDIA+Virtual+GPU+Solutions+Playbook+(NVIDIA+GPU虚拟化销售手册).pdf

06-22

- **NVIDIA® TESLA® 数据中心 GPU**：基于 Volta、Pascal™ 和 Maxwell™ 架构的 GPU 加速器，可在认证服务器平台上运行 NVIDIA 虚拟化软件。 - **优化选项**：提供密度优化、性能优化和刀片优化等多种解决方案，...

7、Qwen-7B 部署实践

Andy_shenzl的博客

04-01

3100

Qwen（通义千问）由阿里云团队研发，其训练数据覆盖多语言，但主要以中文和英文为主。Qwen的系列模型主要有两类，一类是基座模型Qwen，所谓基座模型，指的是在海量的数据集上进行预训练，这些数据集可能包含了广泛的主题、语境和样式，使得基座模型能够捕捉到丰富的语言特征和通用知识。另外一类是Chat类模型，是利用SFT和RLHF技术实现对齐，从基座模型训练得到对话模型。目前开源模型的参数规模为18亿（1.8B）、70亿（7B）、140亿（14B）和720亿（72B）。

书生·浦语(InternLM)-openLesson-5-学习笔记

qq_40338806的博客

02-16

864

4bit Weight 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。然后尝试用lmdeploy的torch版进行8bit模型转换，成功转换为了8bit模型，但是推理仍然失败了，老师给出的原因还是triton对P40的支持问题。或者，也有可能量化后的模型正好对某些数据集具有更好的性能。首先我们需要明白一点，服务部署和量化是没有直接关联的，量化的最主要目的是降低显存占用，主要包括两方面的显存：模型参数和中间过程计算结果。

大模型的实践应用13-量化后的通义千问Qwen的18亿参数在CPU上的部署，最小2GB显存可跑，并利用两种文本流式方式输出

weixin_42878111的博客

12-14

1680

大家好，我是微学AI，今天给大家介绍大模型的实践应用13-量化后的通义千问Qwen的18亿参数在CPU上的部署，最小2GB显存可跑，并利用两种文本流式方式输出。Qwen-1_8B-Chat是阿里云研发的通义千问大模型系列的18亿参数规模的模型。Qwen-1.8B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-1.8B的基础上，我们使用对齐机制打造了基于大语言模型的AI助手Qwen-1.8B-

【AI开发：语言】二、Qwen1.5-7B模型本地部署CPU和GPU版

04-16

3017

Kobold和LM Studio各有千秋吧，一个是简单，另外一个就是功能多。所以在使用的时候我们可以根据自己的需求来选择。

华为910b推理Qwen1.5-72b

weixin_41549308的博客

07-12

1607

910b部署推理大模型

第十三篇-Tesla P40+ModelScope+Gradio+QWen-14B-Int4

木卫二号的专栏

09-28

1022

【代码】第十三篇-Tesla P40+ModelScope+Gradio+QWen-14B-Int4。

Intel CPU 实战部署阿里大语言模型千问Qwen-1_8B-chat

英特尔开发人员专区

01-30

4074

利用 Intel 的大语言模型推理框架，我们可以实现大模型在 Intel 端侧设备的高性能推理。只需要 2G 内存占用就可以实现与本地大模型的流畅对话，一起来体验下吧。

GPU+CPU整合：巨头竞争下的技术趋势与挑战

NVIDIA的Tesla通用GPU计算架构尝试将CPU和GPU集成，旨在创造一个统一的计算平台。然而，由于NVIDIA没有深厚的历史背景在CPU研发上，他们在整合过程中面临着技术和挑战。 AMD则计划推出内建GPU核心的Fusion处理器，...