CogVLM2多模态开源大模型部署与使用

最新推荐文章于 2025-03-17 09:55:01 发布

何以问_

最新推荐文章于 2025-03-17 09:55:01 发布

阅读量3.8k

点赞数 13

文章标签：开源 llama

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hejiahao_/article/details/139449516

版权

CogVLM2多模态开源大模型部署与使用

项目简介

CogVLM2 是由清华大学团队发布的新一代开源模型系列。
2024年5月24日，发布了Int4版本模型，只需16GB显存即可进行推理。
2024年5月20日，发布了基于llama3-8b的CogVLM2，性能与GPT-4V相当或更优。

模型特点

显著提升关键指标，如TextVQA, DocVQA。
支持8K文本长度和1344*1344图像分辨率。
提供中英文双语模型版本。

模型详细信息

基座模型：Meta-Llama-3-8B-Instruct
语言：英文和中英文双语
模型大小：19B
任务：图像理解，对话模型
文本长度：8K
图片分辨率：1344*1344

模型使用

最低配置要求

CogVlM2 Int4 型号需要 16G GPU 内存就可以运行，并且必须在具有 Nvidia GPU 的 Linux 上运行。

Model Name	19B Series Model	Remarks
BF16 / FP16 Inference	42GB	Tested with 2K dialogue text
Int4 Inference	16GB	Tested with 2K dialogue text
BF16 Lora Tuning (Freeze Vision Expert Part)	57GB	Training text length is 2K
BF16 Lora Tuning (With Vision Expert Part)	> 80GB	Single GPU cannot tune

部署步骤

模型下载

这里从 huggingface 上下载模型
如果使用AutoDL算力平台可以使用 so

最低0.47元/天解锁文章

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。