本地部署 Llama-3-EvoVLM-JP-v2_llama-3-elyza-jp-8b-CSDN博客

本文链接：https://blog.csdn.net/engchina/article/details/140905356

本地部署 Llama-3-EvoVLM-JP-v2

0. 引言
1. 关于 Llama-3-EvoVLM-JP-v2
2. 本地部署

0. 引言

Sakana AI 提出了一种称为进化模型合并的方法，并使用该方法创建大规模语言模型（LLM ）、视觉语言模型（VLM）和图像生成模型，他们创建了具有各种功能的合并模型。这次，他们发布了一个新的日本 VLM，Llama-3-EvoVLM-JP-v2，它利用进化模型合并来实现多个图像的问答。此外，为了评估构建的模型，他们还将发布一个数据集：日语多图像视觉问答（JA-Multi-Image-VQA），以评估用日语回答有关多个图像的问题的能力。

1. 关于 Llama-3-EvoVLM-JP-v2

VLM研究LLM它是发展最快的领域之一。最近，VLM的研究不断取得进展，不仅提高了单图像描绘和问答的性能，而且还具备处理视频和多图像的能力。另一方面，这种新型的VLM主要是在英语国家开发的，在非英语国家仍然基本上不存在。日语也是如此；虽然已经开发了几种日语VLM，但这种类型的尖端VLM仍然不多。因此，Sakana AI 使用进化模型融合来创建这种新型的英语 VLM 和日语 VLM。他们认为通过合并这些LLM，他们可以快速构建一个尖端的日本 VLM。

在构建新的VLM时，底层模型是开源模型。LLM其中，他们选择了Llama-3，它具有高性能，并且各种额外训练的模型都是公开的。有几种使用 Llama-3 创建的高性能 VLM，但Mantis-8B-SigLIP-Llama-3是一种前所未有的 VLM，可以将输入图像放置在我选择的输入文本中的任何位置。高性能日语培训，帮助学生获得日语能力。LLM他们使用Llama-3-ELYZA-JP-8B 。首先，通过合并这两个模型，他们成功构建了“可以处理多个图像的日本 VLM”。此外，他们还添加了一个名为Bunny-v1.1-Llama-3-8B-V的高性能英文VLM来增强图像渲染能力。LLM这些部件也被添加到合并中。

2. 本地部署

2-0. 克隆代码

git clone https://huggingface.co/spaces/SakanaAI/Llama-3-EvoVLM-JP-v2; cd Llama-3-EvoVLM-JP-v2

2-1. 安装依赖模块

pip install git+https://github.com/TIGER-AI-Lab/Mantis.git

2-2. 创建 Web UI

# webui.py
import gradio as gr
import time
import subprocess

import torch

from models.mllava import (
    MLlavaProcessor,
    LlavaForConditionalGeneration,
    prepare_inp