Mistral 发布首款多模态模型 Pixtral 12B

在这里插入图片描述

法国人工智能初创公司Mistral发布了首款可处理图像和文本的模型。该模型名为 Pixtral 12B,拥有 120 亿个参数,大小约为 24GB。参数大致相当于模型解决问题的能力,参数越多的模型通常比参数越少的模型性能越好。

在这里插入图片描述
新模型建立在 Mistral 的文本模型 Nemo 12B 上,可以回答关于任意数量、任意大小的图片的问题,这些图片可以是图片 URL,也可以是使用二进制文本编码方案 base64 编码的图片。与 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o 等其他多模态模型类似,Pixtral 12B 至少在理论上可以完成为图片添加标题和计算照片中物体数量等任务。

Pixtral 12B 可通过GitHub和人工智能与机器学习开发平台Hugging Face 上的 torrent 链接下载、微调,并根据 Mistral 的标准许可使用。

遗憾的是,在本文发表时,还没有任何可用的网络演示。Mistral 开发者关系主管 Sophia Yang 在 X 上发表文章称,Pixtral 12B 将很快在 Mistral 的聊天机器人和 API 服务平台 Le Chat 和 Le Platforme 上进行测试。

在这里插入图片描述
目前还不清楚 Mistral 可能使用了哪些图像数据来开发 Pixtral 12B。

大多数生成式人工智能模型,包括 Mistral 的其他模型,都是在网络上的大量公共数据上训练出来的,而这些数据通常都是受版权保护的。一些模型供应商辩称,"合理使用"权使他们有权采集任何公共数据,但许多版权所有者不同意,并已对 OpenAI 和 Midjourney 等大型供应商提起诉讼,以阻止这种做法。

Pixtral 120 亿美元的融资是在 Mistral 获得由 General Catalyst 领投的 6.45 亿美元融资之后进行的,该轮融资使该公司估值达到 60 亿美元。刚刚成立一年多的 Mistral 被人工智能界的许多人视为欧洲对 OpenAI 的回应。迄今为止,这家年轻公司的战略包括发布免费的"开放"模型,对这些模型的托管版本收费,以及为企业客户提供咨询服务。

Pixtral 12B 带来了什么?

虽然新模型的官方细节,包括其训练数据仍处于保密状态,但其核心理念似乎是,Pixtral 12B 将允许用户分析图片,同时将文字提示与图片相结合。 因此,在理想情况下,用户可以上传一张图片或提供一个链接,然后就文件中的主题提问。 此举对 Mistral 来说尚属首次,但值得注意的是,其他多个模型,包括 OpenAI 和 Anthropic 等竞争对手的模型,都已经具备了图片处理能力。 当一位 X 用户问 Sophia Yang Pixtral 120 亿参数模型的独特之处时,她说它将原生支持任意数量、任意大小的图片。正如 X 上的初始测试者所分享的那样,24GB 模型的架构似乎有 40 层、14336 个隐藏维度大小和 32 个注意头,可用于广泛的计算处理。 在视觉方面,它有一个专用的视觉编码器,支持 1024×1024 图像分辨率和 24 个隐藏层,可用于高级图像处理。不过,当该公司通过 API 提供这些功能时,情况可能会发生变化。

下载

magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%http://2Ftracker.ipv6tracker.org%3A80%2Fannounce

Release信息:

https://github.com/mistralai/mistral-common/releases/tag/v1.4.0

使用

Mistral 通用版支持图片! 现在您可以将图片和 URL 与文本一起传入用户信息。

pip install --upgrade mistral_common

要使用模型checkpoint:

# pip install huggingface-hub

from huggingface_hub import snapshot_download

snapshot_download(repo_id="mistral-community/pixtral-12b-240910", local_dir="...")

图像
from mistral_common.protocol.instruct.messages import (
    UserMessage,
    TextChunk,
    ImageURLChunk,
    ImageChunk,
)
from PIL import Image
from mistral_common.protocol.instruct.request import ChatCompletionRequest
from mistral_common.tokens.tokenizers.mistral import MistralTokenizer

tokenizer = MistralTokenizer.from_model("pixtral")

image = Image.new('RGB', (64, 64))

# tokenize images and text
tokenized = tokenizer.encode_chat_completion(
    ChatCompletionRequest(
        messages=[
            UserMessage(
                content=[
                    TextChunk(text="Describe this image"),
                    ImageChunk(image=image),
                ]
            )
        ],
        model="pixtral",
    )
)
tokens, text, images = tokenized.tokens, tokenized.text, tokenized.images

# Count the number of tokens
print("# tokens", len(tokens))
print("# images", len(images))

图片网址

您可以传递图片网址,图片会自动下载

url_dog = "https://picsum.photos/id/237/200/300"
url_mountain = "https://picsum.photos/seed/picsum/200/300"

# tokenize image urls and text
tokenized = tokenizer.encode_chat_completion(
    ChatCompletionRequest(
        messages=[
            UserMessage(
                content=[
                    TextChunk(text="Can this animal"),
                    ImageURLChunk(image_url=url_dog),
                    TextChunk(text="live here?"),
                    ImageURLChunk(image_url=url_mountain),
                ]
            )
        ],
        model="pixtral",
    )
)
tokens, text, images = tokenized.tokens, tokenized.text, tokenized.images

# Count the number of tokens
print("# tokens", len(tokens))
print("# images", len(images))

图像数据

您还可以将图片编码为 base64

tokenized = tokenizer.encode_chat_completion(
    ChatCompletionRequest(
        messages=[
            UserMessage(
                content=[
                    TextChunk(text="What is this?"),
                    ImageURLChunk(image_url=""),
                ]
            )
        ],
        model="pixtral",
    )
)
tokens, text, images = tokenized.tokens, tokenized.text, tokenized.images

# Count the number of tokens
print("# tokens", len(tokens))
print("# images", len(images))

mistralai/Pixtral-12B-2409

vllm

from vllm import LLM
from vllm.sampling_params import SamplingParams

model_name = "mistralai/Pixtral-12B-2409"

sampling_params = SamplingParams(max_tokens=8192)

llm = LLM(model=model_name, tokenizer_mode="mistral")

prompt = "Describe this image in one sentence."
image_url = "https://picsum.photos/id/237/200/300"

messages = [
    {
        "role": "user",
        "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": image_url}}]
    },
]

outputs = vllm_model.model.chat(messages, sampling_params=sampling_params)

print(outputs[0].outputs[0].text)

高级使用

您还可以在每条信息中传递多个图像和/或传递多轮对话

from vllm import LLM
from vllm.sampling_params import SamplingParams

model_name = "mistralai/Pixtral-12B-2409"
max_img_per_msg = 5
max_tokens_per_img = 4096

sampling_params = SamplingParams(max_tokens=8192, temperature=0.7)
llm = LLM(model=model_name, tokenizer_mode="mistral", limit_mm_per_prompt={"image": max_img_per_msg}, max_num_batched_tokens=max_img_per_msg * max_tokens_per_img)

prompt = "Describe the following image."

url_1 = "https://huggingface.co/datasets/patrickvonplaten/random_img/resolve/main/yosemite.png"
url_2 = "https://picsum.photos/seed/picsum/200/300"
url_3 = "https://picsum.photos/id/32/512/512"

messages = [
    {
        "role": "user",
        "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": url_1}}, {"type": "image_url", "image_url": {"url": url_2}}],
    },
    {
        "role": "assistant",
        "content": "The images shows nature.",
    },
    {
        "role": "user",
        "content": "More details please and answer only in French!."
    },
    {
        "role": "user",
        "content": [{"type": "image_url", "image_url": {"url": url_3}}],
    }
]

outputs = llm.chat(messages=messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

服务器模式

vllm serve mistralai/Pixtral-12B-2409 --tokenizer_mode mistral --limit_mm_per_prompt 'image=4' --max_num_batched_tokens 16384

客户端

curl --location 'http://<your-node-url>:8000/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer token' \
--data '{
    "model": "mistralai/Pixtral-12B-2409",
    "messages": [
      {
        "role": "user",
        "content": [
            {"type" : "text", "text": "Describe this image in detail please."},
            {"type": "image_url", "image_url": {"url": "https://s3.amazonaws.com/cms.ipressroom.com/338/files/201808/5b894ee1a138352221103195_A680%7Ejogging-edit/A680%7Ejogging-edit_hero.jpg"}},
            {"type" : "text", "text": "and this one as well. Answer in French."},
            {"type": "image_url", "image_url": {"url": "https://www.wolframcloud.com/obj/resourcesystem/images/a0e/a0ee3983-46c6-4c92-b85d-059044639928/6af8cfb971db031b.png"}}
        ]
      }
    ]
  }'

追评

开发者可以根据需求,调整模型的使用架构,以满足个性化或是企业经营。这也是 Mistral AI 首次开源 VLM大模型。希望之后能像Flux一样,有越来越多的开发者跟进给出更棒的推理、微调或训练、提示词工程相关的项目。

  • 8
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值