【VisualGLM】大模型之 VisualGLM 部署

最新推荐文章于 2024-08-02 13:23:39 发布

Encarta1993

最新推荐文章于 2024-08-02 13:23:39 发布

阅读量1.5k

点赞数 1

分类专栏： LLM 文章标签：人工智能

本文链接：https://blog.csdn.net/u014147522/article/details/132171980

版权

LLM 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. VisualGLM 效果展示

2. VisualGLM 介绍

3. VisualGLM 部署

1. VisualGLM 效果展示

VisualGLM 问答

原始图片

2. VisualGLM 介绍

VisualGLM 主要做的是通过图像生成文字，而 Stable Diffusion 是通过文字生成图像。

一种方法是将图像当作一种特殊的语言进行预训练，还有一种是将图像特征对齐到预训练语言模型，可充分利用语言模型，并且无缝衔接多轮对话能力，但提取图像语义特征会损失底层信息。

VisualGLM 模型架构是 ViT + QFormer + ChatGLM，在预训练阶段对 QFormer 和 ViT LoRA 进行训练，在微调阶段对 QFormer 和 ChatGLM LoRA 进行训练，训练目标是自回归损失（根据图像生成正确的文本）和对比损失（输入 ChatGLM 的视觉特征与对应文本的语义特征对齐）。

3. VisualGLM 部署

ChatGLM 模型权重下载见

【ChatGLM】大模型之 ChatGLM 部署

VisualGLM 启动

# 源码下载
git clone https://github.com/THUDM/VisualGLM-6B.git

# 代码修改
# 可以把 ChatGLM-6B 改为本地加载

# web 端启动
cd VisualGLM-6B
pip install -r requirements.txt
pytohn web_deme.py

Encarta1993

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【VisualGLM】大模型之 VisualGLM 部署

大模型之 VisualGLM 部署大模型之 VisualGLM 部署大模型之 VisualGLM 部署VisualGLM 主要做的是通过图像生成文字，而 Stable Diffusion 是通过文字生成图像。一种方法是将图像当作一种特殊的语言进行预训练，还有一种是将图像特征对齐到预训练语言模型，可充分利用语言模型，并且无缝衔接多轮对话能力，但提取图像语义特征会损失底层信息。
复制链接

扫一扫