Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

最新推荐文章于 2025-03-17 09:55:01 发布

大模型微调实战

最新推荐文章于 2025-03-17 09:55:01 发布

阅读量656

点赞数 11

文章标签：人工智能 chatgpt llama 产品经理学习 ui

本文链接：https://blog.csdn.net/2401_85373898/article/details/144021537

版权

Mistral AI 在 9 月份甩出了自家的首款多模态大模型 Pixtral 12B，如今，Pixtral 12B 技术报告全公开。

主页: https://mistral.ai/news/pixtral-12b/
_论文地址：_https://arxiv.org/abs/2410.07073
_开源代码：_https://github.com/mistralai

从论文的测试结果来看，Pixtral 12B 明显优于其他类似大小的开源模型（比如 Llama-3.2 11B 和 Qwen-2-VL 7B），甚至在一些评测中，表现比 Meta 家的多模态老大哥 Llama-3.2 90B 还要好。

Mistral AI 发布了最新开源多模态模型 Pixtral Large，该模型基于 Mistral Large 2 构建，展示出强大的图像理解能力，能够理解文档、图表和自然图像，同时还保持了 Mistral Large 2 优秀的纯文本理解能力。

Mistral 的 AI 聊天助手 le Chat 也新增了网页搜索、画布、文件理解和图像生成等功能。

此外，Mistral 还开源了一个新的多模态基准测试 MM-MT-Bench，用于在实际场景中评估视觉语言模型。

PART.01

开源多模态大模型 Pixtral Large

Pixtral Large 是 Mistral AI 多模态家族中的第二个模型。

Pixtral Large 旨在通过大规模数据训练，提供高效的语言理解和生成能力。它支持中文、法文、英文等十多种主流语言，适用于多种自然语言处理任务，如文本生成、翻译和问答等。

Pixtral Large 包括一个 1230 亿参数解码器和一个 10 亿参数视觉编码器，使其在文本和视觉数据处理方面均表现出色。

Pixtral Large 上下文窗口为 128K，至少可以处理 30 张高分辨率图像或大约一本 300 页的书，这相当于领先的 OpenAI GPT 系列模型的能力。

根据测试数据显示：

Pixtral Large 在 MMMU、MathVista、ChartQA、DocVQA、VQAv2 等基准测试的数据，超过了 GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2 90B，成为目前最强的开源多模态模型。
Pixtral Large 在 MM-MT-Bench 上也展示了强有力的竞争力，优于 Claude-3.5 Sonnet（新版）、Gemini-1.5 Pro 和 GPT-4o（最新版）。
在 MathVista 基准上，Pixtral Large 实现了 69.4% 的准确率，优于所有其他模型。在 ChartQA 和 DocVQA 基准上， Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

PART.02

对标 ChatGPT 全面升级 le Chat

除了发布新模型，Mistral AI 还进一步升级了免费聊天机器人 le Chat，增加图像生成、网络搜索和交互式画布功能，全面对标 ChatGPT。

_体验地址：_https://chat.mistral.ai/chat

le Chat 是一个免费的_支持PDF理解、网络搜索、Canvas、AI Agent、图片生成_的多模态AI助手。

le Chat 能够处理大型、复杂的PDF文档和图像，得益于最新的多模态模型 Pixtral Large，能够分析和总结文档中的图表、表格、图示、文本、公式和方程等内容。

例如，它可以轻松解析著名的量子纠缠论文，展示出信息提取、总结和语义理解的强大能力。

le Chat 功能

在这次更新中：

le Chat 引入实时的网络搜索功能：用户可以直接在聊天界面中搜索互联网上的最新信息，并获取带有引用链接的答案。对于学生和专业人士来说非常有帮助，可以在准备研究报告或学术论文时，快速准确地获取资料和数据。
le Chat 推出全新的 Canvas 功能：支持想法的构思允许内联编辑和导出，极大地提高了创意工作的效率。用户可以在Canvas上进行头脑风暴、编辑内容，并将其导出为各种格式，方便进一步使用。
le Chat 提供 AI Agent 功能：用户可以将特定类型的工作流程编码为 Agent，然后发布并与团队成员共享，实现更高效的工作流管理和自动化操作。常见的使用场景包括收据扫描、费用报告、会议纪要的总结和发票处理等。
le Chat 图像生成功能：Mistral AI 与 Black Forest Labs 合作，将后者领先的图像生成模型引入 le Chat。现在，用户可以直接在 le Chat 中生成高质量的图像。

在性能提升方面，le Chat 通过投机性编辑技术，显著提高了响应速度，用户可以更快地获得高质量的回答和建议，提高了整体的工作效率。

同时，le Chat 提供了一个从模型到输出的完全集成平台，用户可以在一个平台上完成所有的多模态任务，无需在多个工具之间切换，简化了工作流程。

PART.03

全新多模态基准测试 MM-MT-Bench

MM-MT-Bench 是一种开源的、基于评判的评估，风格与纯文本的 MT-Bench 类似，旨在反映多模态 LLM 的实际用例。

MM-MT-Bench 总共包含92个对话（单回合对话69个，2回合对话18个，3回合对话4个，4回合对话1个），涵盖了广泛的实际使用案例，包括五类图像：图表、表格、PDF页面、示意图和杂项。

实验测试结果表明，MM-MT-Bench 的性能与 LMSys Vision 排行榜上的 ELO 排名高度相关（皮尔逊相关系数为 0.91）。

MM-MT-Bench 旨在模拟视觉语言模型的实际使用，用于提取、总结和推理图像内容。

图 12 提供了每个类别中具有代表性的图像，图 11 则提供了视觉语言模型的额定模型响应示例。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述