FastAPI部署GLM-4-9B-Chat遇到的坑

最新推荐文章于 2024-07-16 13:25:09 发布

一只野生雕

最新推荐文章于 2024-07-16 13:25:09 发布

阅读量246

点赞数 10

文章标签： fastapi python

本文链接：https://blog.csdn.net/2401_83039814/article/details/139906612

版权

高柱是按照开源项目self-llm中的FastAPI部署GLM-4-9B-Chat教程，主要遇到了两个问题，记录下~

First：TypeError

完整的错误信息

TypeError: transformers.generation.utils.GenerationMixin.generate() argument after ** must be a mapping, not Tensor

解决方法

升级transformers，pip install transformers==4.41.2（感谢大佬在issue中的解答）

Second：RuntimeError

完整的错误信息

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:1 and cuda:0! (when checking argument for argument tensors in method wrapper_CUDA_cat)

解决方法

在LLM.py中添加.to("cuda")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一只野生雕

关注关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
FastAPI部署GLM-4-9B-Chat遇到的坑

高柱是按照开源项目self-llm中的，主要遇到了两个问题，记录下~
复制链接

扫一扫

glm4-9b-pytorch多轮对话算法模型.zip

07-09

glm-4-9b-chat-1m模型代码文件

06-10

glm-4-9b-chat-1m模型代码文件

参与评论您还未登录，请先登录后发表或查看评论

最新开源对话大模型glm-4-9b-chat本地部署使用

小杰玩编程

06-07

1668

GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中，GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。除了能进行多轮对话，GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用（Function Call）和长文本推理（支持最大 128K 上下文）等高级功能。本代模型增加了多语言支持，支持包括日语，韩语，德语在内的 26 种语言。

Fastchat：基于fastapi构建大模型加载服务

qq128252的博客

09-08

8285

FastChat是一个开放平台，旨在为基于大型语言模型的聊天机器人的训练、服务和评估提供便捷支持。其主要特点包括：提供最先进模型（如Vicuna）的权重、训练代码和评估代码。支持分布式多模型服务系统，配备Web用户界面以及与OpenAI兼容的RESTful API。

智谱AI中api的调用，使用chatglm4，及注意事项

xuanjiong的博客

02-20

1238

若不想使用openai的付费api，可使用智谱AI的api，对于初学者及个人用途完全够用,以下是个人学习网上资料，模仿使用的智谱AIapi的例子。2.若使用图片文本识别功能，请一定注意字符的识别问题，比如AI的I与l这两个难以区分，因此不建议使用图片识别，一时贪快，找错找到发懵。在第一栏的代码行中，只需将api进行复制粘贴，即可通过改变messages中的内容，实现对chatglm的调用。注意事项：1.client行括号内的参数是zhiyuai不是zhipuai,看个人实际命名情况即可。

基于 transformers 的 generate() 方法实现多样化文本生成：参数含义和算法原理解读

热门推荐

木尧大兄弟

07-25

5万+

本文解读一下 huggingface transformers 库的 generate() 函数中各个参数的含义，以及常用的 Greedy Search、Beam Search、Sampling（Temperature、Top-k、Top-p）等各个 decoding 算法的原理。

【一次成功】清华大学和智谱AI公司的ChatGLM-4-9B-Chat-1M大模型本地化部署教程

追寻上飞的博客

07-08

1145

MLM之GLM-4：GLM-4-9B源码解读(finetune.py)模型微调与评估的完整实现——定义命令行参数→加载微调配置/模型/分词器/数据管理器→定义数据集(训练集/验证集/测试集)→模型训练

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

06-12

1480

MLM之GLM-4：GLM-4-9B源码解读(finetune.py)模型微调与评估的完整实现——定义命令行参数→加载微调配置/模型/分词器/数据管理器→定义数据集(训练集/验证集/测试集)→模型训练(梯度检查点/支持从检查点恢复训练)→模型评估(存在测试数据集/基于ROUGE和BLEU分数) 目录 GLM-4-9B源码解读(finetune.py)模型微调与评估的完整实现——定义命令行参数→加载微调配置/模型/分词器/数据管理器→定义数据集(训练集/验证集/测试集)→模型训练(梯度检查点/支持从检

glm-0.9.9.7.zip

11-09

OpenGL图形库（OpenGL Library）是计算机图形学领域广泛使用的API，用于在各种操作系统和硬件上绘制复杂的3D图像。GLM，全称OpenGL Mathematics，是一个为C++编程语言设计的数学和向量矩阵库，它提供了与OpenGL相...

LM-GLM-GLMM-intro：基于GLMGLMM的R中数据分析的统一框架

02-06

标题中的“LM-GLM-GLMM-intro”是一个关于使用R语言进行数据分析的课程或研讨会的主题，重点在于介绍广义线性模型（GLM）和广义线性混合模型（GLMM）。这个主题旨在提供一个统一的框架，将线性模型（LM）、广义线性...

含仿真录像，基于GLM-HMM模型的数据拟合预测matlab仿真

11-24

1.版本：matlab2021a，包含...内容：基于GLM-HMM模型的数据拟合预测matlab仿真4.运行注意事项：注意MATLAB左侧当前文件夹路径，必须是程序所在文件夹位置，具体可以参考视频录。5.适用人群：本硕博等科研学习参考使用。

MLM之GLM-4：GLM-4-9B源码解读(inference.py)加载预训练的因果语言模型基于用户提问实现对话生成——定义对话消息模板{system+tools+user}→加载模型和分词器→利

06-12

1193

MLM之GLM-4：GLM-4-9B源码解读(inference.py)加载预训练的因果语言模型基于用户提问实现对话生成——定义对话消息模板{system+tools+user}→加载模型和分词器→利用apply_chat_template函数应用对话模板(将消息转换为模型输入格式)→定义生成参数并生成输出→解码输出并打印响应目录 GLM-4-9B源码解读(inference.py)加载预训练的因果语言模型基于用户提问实现对话生成——定义对话消息模板{system+tools+user}→加载模型

attention_mask，pad_token_id报错

ph12345687的博客

03-01

3631

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.Setting `pad_token_id` to `eos_token_id`:151643 for open-end generation.

成功解决ValueError:too many values to unpack (expected 2)

Ricardo_Chen的博客

03-29

2万+

解决问题： ValueError:too many values to unpack (expected 2) 解决思路: (1).首先理解错误类型: ValueError–ValueError：函数或方法虽然接受了正确的【类型】的参数，但是该参数的【值】不适当，比如int(‘nick’)，int函数可以接受字符串类型，但是’nick’字符串不具备表示一个整数的含义。 (2).错误处: 存在两个...

GLM-4-9B-Chat WebDemo 部署报错：ValueError: too many values to unpack

最新发布

qq_40838014的博客

07-16

248

1、下载模型的第一行代码导包书写有误，需要自行更改下。重新安装下transformers的包并重启问题就可以解决。经排查报错原因是官方的bug导致，最新的包有问题。2、注意模型的路径，将路径改为绝对路径。本文由博客一文多发平台。

chatglm3-6b小试

warrah 南极狼

06-05

294

原本想在VMware中装个unbutu，再搞chatglm，但经过调研发现业内都是采用双系统来搞chat的开发。,虽然模型比较大，但国内有对应的景象，奇怪这个模型不是我们自己人研究的吗，怎么还要科学上网。的系统盘，你需要准备8G，因为制作好镜像后是7个多G。中从魔塔中的模型，不需要跟工程在同一个文件，因为这个模型文件就有12G。通过ubuntu自身的软件更新，安装nvidia显卡驱动。，因为大模型里面很多程序不是对应的版本，容易出错，就需要想。，说明显卡驱动安装成功。可以下载到对应的模型，不需要花冤枉钱。

chatglm4本地部署详解

lstef的博客

06-16

2775

跟chatglm3回复速度相比，简直是慢动作中的慢动作。把它修改成glm-4-9b-chat的路径：/home/ls/文档/GLM4/glm-4-9b-chat。composite_demo文件夹中的requirements.txt文件夹，是此版本需要安装的依赖。accelerate>=0.30.1，也是类似情况，但指定源下载依然不奏效。（浏览器下载也失败了2次，反正都是断点续传，继续重复执行下载即可。glm-4-9b-chjat为已经训练的参数。另一种是，手动从web下载安装文件后安装。

ChatGLM模型通过api方式调用响应时间慢怎么破，Fastapi流式接口来解惑，能快速提升响应速度

xuxu96

04-10

1万+

chatgpt的fastapi流式部署方法

linux系统部署chat-glm-6b-int4

05-23

首先，你需要下载 Chat-GLM-6B-Int4 模型文件和相应的配置文件。然后，你需要在你的 Linux 系统上安装 PyTorch 和 Transformers 库。你可以使用以下命令安装这两个库： ``` pip install torch pip install transformers ``` 接下来，你需要编写一个 Python 脚本来部署 Chat-GLM-6B-Int4 模型。你可以使用以下代码作为脚本的基础： ```python import torch from transformers import GPT2Tokenizer, GPT2LMHeadModel # 加载模型和分词器 tokenizer = GPT2Tokenizer.from_pretrained('chat-glm-6b-int4/config') model = GPT2LMHeadModel.from_pretrained('chat-glm-6b-int4/model') # 指定设备 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model.to(device) # 对话循环 while True: # 获取用户输入 user_input = input("You: ") # 把用户输入转换成模型的输入格式 input_ids = tokenizer.encode(user_input, return_tensors='pt').to(device) # 在模型上生成回复 output = model.generate(input_ids, max_length=1000, do_sample=True, temperature=0.7) response = tokenizer.decode(output[0], skip_special_tokens=True) # 输出回复 print("Chat-GLM-6B-Int4: " + response) ``` 在这个脚本中，我们首先加载 Chat-GLM-6B-Int4 模型和相应的分词器。然后，我们检查可用的设备并将模型移动到相应的设备上。最后，我们开始一个对话循环，其中用户输入被转换为模型的输入格式，并在模型上生成回复。回复被解码并输出给用户。注意，这个脚本只是一个基础示例，你需要根据你的具体需求进行修改。例如，你可能需要添加一个 Web 接口来允许用户通过浏览器与 Chat-GLM-6B-Int4 进行交互。