使用llama-factory框架下的QWEN2-VL-2B-Instruct跑通图像指令数据集（学习记录）

最新推荐文章于 2025-03-17 10:46:19 发布

早八爱摸鱼

最新推荐文章于 2025-03-17 10:46:19 发布

阅读量2.3k

点赞数 5

文章标签：学习

本文链接：https://blog.csdn.net/2301_80247435/article/details/143678295

版权

第一次记录，多多包涵

1.环境配置，这里的pytorch环境最好是直接下包，不然后面会出现各种各样的错误

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

2.模型，这里我用的是Qwen/Qwen2-VL-2B-Instruct,可以做多模态的模型，可以直接在魔塔社区下载，也可以在hugging face下载。

3.显卡，这里我用的是我们学校的一个3090的服务器，可以使用这个指令上传文件到服务器

scp -r "your_data_path" aaa.000.000.00.00:~/wwz

4.数据集，这里我要跑的是一个其他项目的数据集，那个项目使用的是mplug-owl2模型，我把他的一部分数据集下载下来，并对其进行数据处理。

这个图片数据集本身是有12000多张图片，但是我只下载了他的train.json，所以要根据train.json里对每张图片的描述，对这个图片数据集进行处理，保留只在

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

早八爱摸鱼

关注关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

llamafactory0.9.0微调qwen2vl

liguandong

09-24

821

llamafactory cli中的chat是不支持输入图片的，因此输入图片只能通过webchat来实现。改一下src/llamafactory/webui/inference.py中的87行，加一个server_port即可。Qwen2VL微调数据集的图片数量有无限制 · Issue #5375 · hiyouga/LLaMA-Factory · GitHub。其实llamafactory 0.9.0真不如以前的方式，现在的llamafactory-cli不好用，并不适合算法人员。

【深度学习】LLaMA-Factory 微调sft Qwen2-VL 进行印章识别

q742971636的博客

10-14

1591

了解如何利用LLaMA-Factory进行Qwen2-VL模型的微调是掌握先进机器学习技能的关键一步。本文将带你探索如何设置LLaMA-Factory环境、配置训练参数、处理数据集，最终实现多卡训练和模型微调。即使是初学者，凭借这篇博客，你也能顺利上手并自主完成Qwen2-VL模型的定制化训练。

参与评论您还未登录，请先登录后发表或查看评论

Qwen2-VL视觉大模型微调实战：LaTex公式OCR识别任务（完整代码）

SoulmateY的博客

12-04

1702

SwanLab机器学习实战教程是一个主打「开箱即用」的AI训练系列教程，我们致力于提供手把手帮助你跑起训练。Qwen2-VL是通义千问团队最近开源的大语言模型，由阿里云通义实验室研发。以Qwen2-VL作为基座多模态大模型，通过的方式实现特定场景下的OCR，是学习的入门任务。本文我们将简要介绍基于 transformers、peft 等框架，使用 Qwen2-VL-2B-Instruct 模型在上进行Lora微调训练，同时使用监控训练过程与评估模型效果。

Qwen2-VL多模态大模型微调实战（完整代码）

SoulmateY的博客

11-15

1万+

Qwen2-VL多模态大模型微调实战。本文我们将简要介绍基于 transformers、peft 等框架，使用 Qwen2-VL-2B-Instruct 模型在上进行Lora微调训练，同时使用监控训练过程与评估模型效果。

LLaMA-Factory部署、自定义数据集、模型微调、模型调用（NVIDIA）

热门推荐

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

09-26

2万+

使用LLaMA-Factory高效微调qwen2-vl-7b-instruct

浅谈人工智能之基于LLaMA-Factory进行Qwen2微调：医疗大模型

测试人，测试魂

10-28

1320

LLaMA-Factory是一个开源框架，专门设计用于高效地微调LLaMA模型。它提供了灵活的接口和多个预配置的训练任务，用户可以根据自己的需求进行修改和扩展。该工具不仅支持单个GPU的训练，还可以在分布式环境中部署，具备良好的可扩展性。

开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-Lora&模型合并-V100（五）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

09-27

3124

使用LLaMA-Factory合并微调后的模型权重

LLaMA-Factory 微调 Qwen2-VL 进行人脸情感识别

anneCoder的博客

02-20

1052

为了提升人脸情感识别的准确性和鲁棒性，本文采用LLaMA-Factory框架对Qwen2-VL大模型进行微调，以实现对人脸情感的高效识别。通过数据准备、模型配置、训练和评估等步骤，我们成功地构建了一个高效的人脸情感识别模型。在微调之前，需要配置模型参数和数据集路径。注意：上述代码中，加载模型和预测的部分被省略了，实际应用中需要使用合适的代码加载微调后的模型，并进行预测。注意：上述代码中，标签的读取部分被省略了，实际应用中需要从labels.csv等文件中读取标签信息，并添加到labels列表中。

LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集 教程 (3)

AGI

11-26

2378

DPO(Direct Preference Optimization, 直接偏好优化) 是在 RLHF 阶段中使用的优化算法，通过直接利用人类的偏好数据来优化策略模型，无需定义明确的奖励函数或进行复杂的强化学习过程。DPO的优化目标是，增加偏好样本的对数概率与减小非偏好样本响应的对数概率，结合动态加权机制，以避免仅使用概率比目标时遇到的模型退化问题。

LLM - 使用 LLaMA-Factory 微调 Qwen2-VL SFT(LoRA) 图像数据集 教程 (2)

AGI

11-12

2890

LLaMA-Factory 是开源的大模型微调框架，用于高效地微调和部署大语言模型，支持多种预训练模型和微调算法，提供完整的工具和接口，对于预训练的模型进行定制化的训练和调整，以适应特定的应用场景。

MLM之Qwen：Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

09-01

9445

MLM之Qwen：Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略目录 Qwen2-VL的简介 Qwen2-VL的安装和使用方法 Qwen2-VL的案例应用 Qwen2-VL的简介 2024年8越30日，阿里云重磅发布Qwen2-VL！Qwen2-VL是Qwen模型系列中最新版本的视觉语言模型。Qwen2-VL是由阿里云qwen2团队开发的多模态大型语言模型系列。 GitHub地址：https://

Qwen2-VL多模态大模型微调实战教程

SoulmateY的博客

12-04

6158

Qwen2-VL是通义千问团队最近开源的大语言模型，由阿里云通义实验室研发。以Qwen2-VL作为基座多模态大模型，通过的方式实现特定场景下的OCR，是学习的入门任务。本文我们将简要介绍基于 transformers、peft 等框架，使用 Qwen2-VL-2B-Instruct 模型在上进行Lora微调训练，同时使用监控训练过程与评估模型效果。

【课程总结】day32：多模态大模型Qwen2的深入了解

Deadwalk的专栏

10-23

792

本章我们将深入了解Qwen2-VL并使用多模态对于视频的处理能力。

qwen2-vl-7b部署

01-10

### 使用 `llama.cpp` 部署 Qwen2-VL-7B 模型为了高效运行并部署 Qwen2-VL-7B 模型，可以采用 `llama.cpp` 进行一键部署。此方法不仅简化了部署流程还提高了模型的执行效率。 #### 环境准备确保开发环境中已安装 Git 和 CMake 工具，这些工具对于后续操作至关重要[^2]。 #### 获取和编译 llama.cpp 1. **克隆仓库** 执行如下命令来获取最新的源码： ```bash git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp ``` 2. **编译项目** 编译过程依赖于 Makefile 或者 CMakeLists.txt 文件，在 Unix-like 系统上可以直接使用 make 命令完成编译工作；而在 Windows 上则推荐利用 MinGW-w64 来构建。 ```bash make ``` #### 下载 Qwen2-VL-7B 的 GGUF 文件访问官方资源页面下载适用于该框架下的预训练权重文件（通常为 .bin 或其他二进制格式），并将之放置到指定目录下以便加载。 #### 加载模型与处理器一旦完成了上述准备工作之后，则可以通过 Python 脚本调用 HuggingFace 提供的相关 API 接口实现对模型实例化以及数据处理功能的支持： ```python from transformers import Qwen2VLForConditionalGeneration, AutoProcessor model = Qwen2VLForConditionalGeneration.from_pretrained("path/to/local/model") processor = AutoProcessor.from_pretrained("path/to/local/model") ``` 请注意这里的路径应当指向之前所提到过的本地存储位置而非远程地址[^1]。 #### 启动服务端接口为了让外部应用能够方便地请求推理结果，还需要搭建 RESTful Web Service 或 gRPC Server 形式的网络服务器作为中介层连接客户端和服务端之间的通信链路。这一步骤具体取决于个人喜好和技术栈的选择，比如 FastAPI、Flask 或 Django Rest Framework 等都是不错的选择之一。 #### 测试 API 功能性最后可通过发送 HTTP 请求的方式验证整个系统的可用性和稳定性，例如借助 Postman 或 curl 实现简单的 GET/POST 方法测试： ```bash curl -X POST "http://localhost:8000/infer" \ -H "Content-Type: application/json" \ -d '{"input": ["your input text here"]}' ``` 以上就是基于 `llama.cpp` 对 Qwen2-VL-7B 模型进行快速部署的一个完整流程介绍。