第十三篇-Tesla P40+ModelScope+Gradio+QWen-14B-Int4

木卫二号Coding

已于 2023-11-21 12:28:49 修改

阅读量957

点赞数

分类专栏： AI-LLM-实战文章标签：人工智能 chatgpt

于 2023-09-28 23:36:25 首次发布

本文链接：https://blog.csdn.net/hai4321/article/details/133395763

版权

AI-LLM-实战专栏收录该内容

34 篇文章 13 订阅

订阅专栏

本文主要实现Qwen-14B-Chat-Int4部署与测试

环境

  系统：CentOS-7
  CPU: 14C28T
  显卡：Tesla P40 24G
  驱动: 515
  CUDA: 11.7
  cuDNN: 8.9.2.26

创建环境

conda create --name modelscope python=3.10

conda activate modelscope

克隆项目

git clone https://github.com/lvxy/qwen-chat-gradio.git
cd qwen-chat-gradio

安装依赖-1

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装依赖-2

pip install auto-gptq optimum -i https://pypi.tuna.tsinghua.edu.cn/simple

下载模型

python down-models-qwen-14b-int4.py
可以在他服务器下载，这个是modelscope源(国内)，速度还是非常好的

运行

修改 服务器模型文件位置

cd qwen-14b-int4
python run-qwen-14b-int4-chat.py

访问使用

    http://127.0.0.1:7860

可以使用体验了

内存与性能

内存消耗在11G~16G
P40太差，速度还是比较慢的，”写一篇100字的关于大山的作文“ 大概35秒返回

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

木卫二号Coding

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
第十三篇-Tesla P40+ModelScope+Gradio+QWen-14B-Int4

【代码】第十三篇-Tesla P40+ModelScope+Gradio+QWen-14B-Int4。
复制链接

扫一扫

专栏目录

Qwen-14B-Chat-Int4推理报错:ImportError: libcudart.so.12: cannot open shared object file

qq_42681787的博客

11-09

1081

按照提示，pip安装这两个包，结果报错： ImportError: libcudart.so.12: cannot open shared object file: No such file or directory。发现是由于安装的 auto-gptq版本与conda安装的CUDA版本冲突所导致。在 Qwen-14B-Chat-Int4推理时，发现报错，缺少 optimum 和 auto-gptq 两个pip包。安装了跟我conda环境与cuda版本相匹配的 AutoGPTQ，问题解决。

fetch-tesla-token:超级简单的代理，用于获取Tesla API令牌

05-24

获取特斯拉令牌用于获取Tesla令牌的简单node.js服务器为什么要使用服务器？ Tesla SSO服务只能在他们的应用程序和网站上使用，而阻止我们从任何其他网页上访问它。服务器充当代理来绕过此请求，并在不存储任何信息...

2 条评论您还未登录，请先登录后发表或查看评论

【LLM】Windows10环境部署阿里通义千问大模型(Qwen-14B-Chat-Int4)

浩瀚宇宙的一粒尘埃

09-27

3410

系统版本：Windows 10 企业版版本号：20H2 系统类型：64 位操作系统, 基于 x64 的处理器处理器：Intel(R) Core(TM) i7-13700K CPU @ 3.40GHz 机带 RAM：32.0 GB 显卡：NVIDIA RTX 4080（16G） Python版本：3.10.11

清华大模型ChatGLM3在本地Tesla P40上也运行起来了

衡水铁头哥的博客

05-01

806

正文共：999 字 14 图，预估阅读时间：1 分钟我们之前部署了ChatGLM3（清华大模型ChatGLM3部署初体验），但是运行体验比较差，主要就是因为Tesla M4的显存只有4 GB，无法支撑项目运行。为此，我还特意采购了Tesla P4和Tesla P40（Tesla P40终于在DL580 Gen9上面跑起来了！）。ChatGLM3是智谱AI和清华大学KEG实验室联合发布的对话预训练模...

本地部署通义千问大模型

morsth的博客

04-09

1313

*通义千问-7B（Qwen-7B）**是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-7B的基础上，我们使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。

使用4090显卡部署 Qwen-14B-Chat-Int4

engchina的专栏

10-06

4747

使用4090显卡部署 Qwen-14B-Chat-Int4

Qwen-14B-Chat-Int4 保姆级微调详细步骤

weixin_43907339的博客

01-16

4532

Qwen-14B-Chat-Int4 微调详细步骤

【LLM之基座】qwen 14b-4int 部署踩坑

11-17

3956

由于卡只有24G，qwen14b 原生需要 30GB，按照官方团队的说法，他们用的量化方案是基于AutoGPTQ的，而且根据评测，量化之后的模型效果在几乎没有损失的情况下，显存降低到13GB，妥妥穷狗福音，说干就干。

把本地Qwen-14B接入知识库！让他拥有实时知识！私有化部署！18/45

ouhuixiong的博客

12-13

2007

现在市场上已有大量的知识库/文档对话产品了，学会了这个部署，你基本了解到整个企业知识库部署的过程！这时，你已经成功把大模型和知识库打通了，如果你在这个过程有任何的报错，直接留言或者找一意.小胖即可！当然，现在知识库还不能工作，因为现在还没有接入嵌入模型，只能简单对话！我们在纯本地的环境搭建，涉及垂类大模型+嵌入模型的部署、docker部署，都搞掂后！这是雄哥部署好之后的截图，以后你只需要激活环境，cd到目录，直接运行命令启动即可！下一篇，我们把嵌入模型部署好，并且接入部署one-api，直接做完成体！

大模型微调-在3090+A100+H100上微调Mistra-7B大模型-附流程教程+项目源码-优质大模型项目分享.zip

最新发布

05-16

- **NVIDIA A100**：属于Tesla系列，是为数据中心和AI计算设计的专业级GPU，具备高带宽内存和Tensor Cores，专为加速AI、高性能计算和大数据分析而设计。 - **NVIDIA H100**：这是最新的数据中心GPU，专为AI训练、...

homebridge-tesla-powerwall：Tesla Powerwall的Homebridge插件

02-03

（非官方的）Tesla Powerwall的Homebridge插件。与Tesla Powerwall的通信根据。该插件被认为是完整的。如果您遇到错误或想要提出新功能，请随时提出问题！如果您喜欢此插件，则可以通过Paypal捐赠“一杯咖啡...

pwc-net.pytorch:PyTorch-1.0 ＋中的现成PWC-Net模块

05-04

此代码已经过Python3.6和PyTorch1.0.1和Tesla K80 GPU的测试。系统为Ubuntu 14.04，CUDA版本为10.0。所有必需的python包都可以在requirements.txt找到。安装 # install custom layers cd PWC_src/correlation_...

Tesla-V100-PCIe-Product （Tesla V100显卡）

04-07

4. **PCIe接口**：Tesla V100通过PCI Express 3.0 x16接口与系统主板连接，提供高达16GB/s的数据传输速率，确保GPU与CPU之间的高效通信。 **硬件结构** 1. **多芯片模块(MCM)**：Tesla V100采用多芯片模块设计，将...

本地部署 Qwen-14B-Chat

engchina的专栏

11-20

2808

本地部署 Qwen-14B-Chat

【Qwen-14B】真正喂饭到嘴部署教程！0基础手把手，懂技术的别看！

ouhuixiong的博客

10-15

3194

你可能像我们NLP学习群中的同学一样，遇到各种报错或问题，我每天挑选5条比较有代表性的问题及解决方法贴出来，供大家避坑；还有同学是几年前的老爷机/笔记本，显卡不好，我们应用了动态运输技术框架，直接提升超40%运算效率，无显卡2g内存就能跑，直接焕发第二春；我们“0基础微调大模型+知识库，部署到微信”的项目也在稳步推进，qwen微调教程也紧随其后，第一时间在知识星球上线，一定要扫码加入啊！如果你还不知道该怎么微调训练模型，在这里还可以学训练和微调，跟着一步步做，你也能把大模型的知识真正应用到实处，产生价值。

Qwen-14B Ai新手部署开源模型安装到本地

weixin_46458535的博客

12-19

3776

AI 新手本地化 Qwein - 14B

linux查看显卡型号p4卡或者t4卡_NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比...

weixin_35761245的博客

01-12

4613

NVIDIA Tesla系列GPU适用于高性能计算(HPC)、深度学习等超大规模数据计算，Tesla系列GPU能够处理解析PB级的数据，速度比使用传统CPU快几个数量级，NVIDIA Tesla GPU系列P4、T4、P40以及V100是Tesla GPU系列的明星产品，云服务器吧分享NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比：NVIDIA Tesla GPU系...

NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交