GLM-4-9B VLLM 推理使用；openai接口调用、requests调用

loong_XL

已于 2024-06-12 11:31:06 修改

阅读量321

点赞数

分类专栏：深度学习大模型AI 文章标签：人工智能 glm4

于 2024-06-06 16:54:13 首次发布

本文链接：https://blog.csdn.net/weixin_42357472/article/details/139504731

版权

深度学习同时被 2 个专栏收录

228 篇文章 96 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大模型AI

26 篇文章 1 订阅

订阅专栏

参考：
https://huggingface.co/THUDM/glm-4-9b-chat

直接运行vllm后端服务：

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

# GLM-4-9B-Chat-1M
# max_model_len, tp_size

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

loong_XL

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
GLM-4-9B VLLM 推理使用；openai接口调用、requests调用

glm4 vllm openai
复制链接

扫一扫

专栏目录

订阅专栏

GLM-4本地部署的实战教程

herosunly的博客

06-05

6万+

本文主要介绍了GLM-4-9B本地部署的实战教程，希望对学习和使用大模型的同学们有所帮助。文章目录 1. 前言 2. 配置环境 2.1 安装虚拟环境 2.2 安装依赖库 2.3 下载模型文件 3. 运行glm-4-9b-chat

在DeepLn环境中安装VLLM与ChatGLM3

QZXSY1的博客

03-10

825

总体而言，vllm的优势有- vLLM通过PagedAttention机制,可以高效地管理大语言模型的keys和values,显著提高吞吐量。- memory sharing机制可以实现不同样本间的显存共享,进一步提升吞吐量。- 使用pip安装vLLM后,可以通过几行代码进行离线推理。- 也可以启动在线服务,然后通过API调用vLLM。- vLLM兼容主流的预训练模型,可以不修改模型结构就获得显著的加速效果。

参与评论您还未登录，请先登录后发表或查看评论

GLM4 9B - 环境准备和 vllm 部署

arkohut的博客

06-06

2673

这里是视频的笔记，完整的信息请观看视频。6 月 5 日，glm 团队开源了最新的大语言模型，glm4 9b。同时，这次还直接推出了对应的多模态模型，glm-4v-9b 支持 8k 的上下文。从测评结果来看，其综合水平全面超越了 llama3 8b 的模型。这里呢，我还是先记录下环境搭建和部署的流程。

【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战

人工智能领域博客

06-06

1万+

本文首先对GLM4-9B的模型特点及原理进行介绍，接着分别对GLM4-9B-Chat语言大模型和GLM-4V-9B多模态大模型进行代码实践。排了很多坑，推荐阅读和收藏。

[大模型]GLM-4-9B-Chat vLLM 部署调用

FL1623863129的博客

06-11

2020

考虑到部分同学配置环境可能会遇到一些问题，我们在 AutoDL 平台准备了 GLM-4 的环境镜像，该镜像适用于本教程需要 GLM-4 的部署环境。（vLLM 对 torch 版本要求较高，且越高的版本对模型的支持更全，效果更好，所以新建一个全新的镜像。在 /root/autodl-tmp 路径下新建 download.py 文件并在其中输入以下内容，粘贴代码后记得保存文件，如下图所示。的指示将端口映射到本地，然后在浏览器中打开链接 http://localhost:6006/ ，即可看到聊天界面。

glm-4-9b-chat-1m模型代码文件

06-10

glm-4-9b-chat-1m模型代码文件

glm-0.9.9.7.zip

11-09

在使用GLM-0.9.9.7.zip时，你需要解压文件，然后在你的C++项目中引用相应的头文件，例如`#include <glm/glm.hpp>`。确保你的编译器配置正确，能够找到GLM库的路径，并且链接器也能够找到相应的库文件。这样，你就...

LM-GLM-GLMM-intro：基于GLMGLMM的R中数据分析的统一框架

02-06

标题中的“LM-GLM-GLMM-intro”是一个关于使用R语言进行数据分析的课程或研讨会的主题，重点在于介绍广义线性模型（GLM）和广义线性混合模型（GLMM）。这个主题旨在提供一个统一的框架，将线性模型（LM）、广义线性...

含仿真录像，基于GLM-HMM模型的数据拟合预测matlab仿真

11-24

1.版本：matlab2021a，包含...内容：基于GLM-HMM模型的数据拟合预测matlab仿真4.运行注意事项：注意MATLAB左侧当前文件夹路径，必须是程序所在文件夹位置，具体可以参考视频录。5.适用人群：本硕博等科研学习参考使用。

glm-0.9.9.8版本

03-23

GLM-0.9.9.8是GLM的一个特定版本，它包含了对OpenGL编程所需的向量、矩阵和几何变换等基本数学结构的支持。 GLM的核心概念基于OpenGL Shading Language (GLSL) 的语法，这使得在C++代码中直接使用类似于着色器的...

BERT 获取最后一层或每一层网络的向量输出

热门推荐

weixin_42357472的博客

10-21

1万+

参考：https://zhuanlan.zhihu.com/p/422533717 https://blog.csdn.net/sunyueqinghit/article/details/105157609 transformer输出的结果 last_hidden_state：shape是(batch_size, sequence_length, hidden_size)，hidden_size=768,它是模型最后一层输出的隐藏状态 pooler_output：shape是(batch_size, hid

maskrcnn-benchmark训练自己数据集用于视觉分割

weixin_42357472的博客

06-23

1万+

1、标记数据用labelme，建议用ubuntu版本去做，因为window可能因为这个需要环境改变影响其他，自己犯过这个问题 https://github.com/wkentaro/labelme 2、labelme转化成coco数据集用于分割任务 labelme2coco.py进行转化 # -*- coding:utf-8 -*- import argparse import json im...

神经网络 Embedding层理解； Embedding层中使用预训练词向量

weixin_42357472的博客

10-21

9045

Embedding：高维稀疏特征向量到低维稠密特征向量的转换；嵌入层将正整数（下标）转换为具有固定大小的向量 Embedding 字面理解是 “嵌入”，实质是一种映射，从语义空间到向量空间的映射，同时尽可能在向量空间保持原样本在语义空间的关系，如语义接近的两个词汇在向量空间中的位置也比较接近。应用：在深度学习推荐系统中，Embedding主要的三个应用方向： 1、在深度学习网络中作为Embedding层，完成从高维稀疏特征向量到低维稠密特征向量的转换； 2、作为预训练的Embedding特征向量，与其

bert4keras、transformers 加载预训练bert模型、句向量cls，字向量提取；tokenizer使用

weixin_42357472的博客

12-08

8673

bert4keras 分词器 Tokenizer from bert4keras.models import build_transformer_model from bert4keras.tokenizers import Tokenizer import numpy as np config_path = '/Users/lonng/Desktop/v+/xl/chinese_L-12_H-768_A-12/bert_config.json' checkpoint_path = '/Users/lo

yolo v5 onnxruntime与opencv cv2加载部署推理、实时摄像头检测

weixin_42357472的博客

04-13

7239

参考：https://github.com/hpc203/yolov5-lite-onnxruntime https://github.com/hpc203/yolov5-dnn-cpp-python 1、onnxruntime 加载推理yolo v5 onnx import cv2 import numpy as np import argparse import onnxruntime as ort import math class yolov5_lite(): def __init__(s

yolov8 人体姿态关键点检测；pose自有数据集训练

weixin_42357472的博客

06-16

6943

参考： https://github.com/ultralytics/ultralytics https://github.com/TommyZihao/Train_Custom_Dataset/tree/main/%E5%85%B3%E9%94%AE%E7%82%B9%E6%A3%80%E6%B5%8B 1、命令行运行 pip安装好后就可以yolo 命令运行执行 *** 运行效果，source=0是直接调用本地摄像头结果： 640x512 1 person, 114.0ms Speed: 8.0

bert 自己语料预训练pre-train、微调fine-tune；tensorflow/pytorch矩阵点乘、叉乘区别

weixin_42357472的博客

12-07

5842

矩阵点乘：对应位置直接相乘矩阵叉乘：行向量的每一个元素乘以列向量中所有元素

LLaMA-Factory可视化界面微调chatglm2；LoRA训练微调模型简单案例

weixin_42357472的博客

05-09

5848

lore模型训练参考：https://github.com/huggingface/peft。

glm-4v-9b 怎么本地部署

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交