微软最新轻量级、多模态Phi-3.5-vision-instruct模型部署

最新推荐文章于 2025-04-14 00:54:59 发布

置顶

杰说新技术

最新推荐文章于 2025-04-14 00:54:59 发布

阅读量1k

点赞数 8

分类专栏： AIGC 多模态文章标签： AIGC 人工智能 microsoft

本文链接：https://blog.csdn.net/m0_71062934/article/details/141790422

版权

Phi-3.5-vision-instruct是微软最新发布的 Phi-3.5 系列中的一个AI模型，专注于多模态任务处理，尤其是视觉推理方面的能力。

Phi-3.5-vision-instruct模型具备广泛的图像理解、光学字符识别（OCR）、图表和表格解析、多图像或视频剪辑摘要等功能，非常适合多种AI驱动的应用，在图像和视频处理相关的基准测试中表现出显著的性能提升。

Phi-3.5-vision-instruct模型的架构包括一个42亿参数的系统，集成了图像编码器、连接器、投影器和Phi-3 Mini语言模型，训练使用了256个NVIDIA A100-80G GPU，训练时间为6天。

Phi-3.5-vision在多模态多图像理解（MMMU）中的得分为43.0，相较于之前版本有所提升，显示了其在处理复杂图像理解任务时的增强能力。

github项目地址：https://github.com/microsoft/Phi-3CookBook。

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、pip库安装

pip install torch==2.3.0+cu118 torchvision==0.18.0+cu118 torchaudio==2.3.0 --extra-index-url https://download.pytorch.org/whl/cu118

pip install upgrade transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install flash-attn --no-build-i

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

杰说新技术

关注关注

8
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【大模型】Phi-3.5-vision-instruct模型的安装与使用

静谧、淡雅

04-01

420

Phi-3.5-vision-instruct

最强图像大模型Phi-3.5-vision实践

csdn1561168266的博客

09-25

1157

大家好，微软推出的Phi-3.5-vision，把人工智能带到了成长的新阶段。这款AI模型擅长处理文本和图像，为图像识别和自动文字识别等任务带来创新的解决思路。本文将介绍Phi-3.5-vision的技术亮点及其在实际场景中的应用。

参与评论您还未登录，请先登录后发表或查看评论

微软推出Phi-3.5系列AI模型

百态老人的博客

08-22

1316

是的，微软确实推出了Phi-3.5系列AI模型。这一系列包括三款轻量级AI模型：Phi-3.5-MoE、Phi-3.5-vision和Phi-3.5-mini。这些模型基于合成数据和经过过滤的公开网站构建，上下文窗口为128K。具体来说，Phi-3.5-MoE是该系列中的首个混合专家模型（MoE），具有显著的性能优势。Phi-3.5-vision则是一款多模态AI模型，能够同时处理文本和视觉输入。

微软Phi-3.5系列亮相：性能超越Gemini 1.5和GPT-4o

OpenCSG的博客

08-22

1105

相比之下，其他更大参数的模型，如Llama 3.1-8B Instruct和Mistral-7B Instruct，在处理类似任务时往往需要更多的计算资源和时间，而Phi-3.5系列则以其精简的设计和高效的架构取得了更高的性价比。拥有420亿活跃参数的Phi-3.5 MoE模型在代码、数学和多语言理解方面表现出色，通常在基准测试中超越了更大的模型，如在5-shot MMLU基准测试中，这款模型在STEM、人文学科、社会科学等多个学科的不同层次上超越了GPT-4o mini。•Huggingface主页。

微软发布Phi-3.5——这个新型小型AI模型优于Gemini和GPT-4o

08-23

1758

AI大模型 | Phi 3.5 系列发布了

star_nwe的博客

08-24

1130

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

Phi-3.5-vision-instruct模型的安装与使用教程

gitblog_02351的博客

12-12

848

Phi-3.5-vision-instruct模型的安装与使用教程 Phi-3.5-vision-instruct 项目地址: https://gitcode.com/mirrors/Microsoft/Phi-3.5-visi...

多模态：Phi-3.5-vision-instruct【4.2B参数】【微软】

最新发布

u013250861的博客

04-14

Phi-3.5-vision-instruct是微软最新发布的 Phi-3.5 系列中的一个AI模型，专注于多模态任务处理，尤其是视觉推理方面的能力。参数的系统，集成了图像编码器、连接器、投影器和Phi-3 Mini语言模型，训练使用了256个NVIDIA A100-80G GPU，训练时间为6天。Phi-3.5-vision在多模态多图像理解（MMMU）中的得分为43.0，相较于之前版本有所提升，显示了其在处理复杂图像理解任务时的增强能力。

《深入浅出多模态》之多模态技术知识总结（中）

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

12-02

591

本作者推出全新系列《深入浅出多模态》专栏，具体章节如导图所示（导图后续更新），将分别从各个多模态模型的概念、经典模型、创新点、论文综述、发展方向、数据集等各种角度展开详细介绍，欢迎大家关注。

Phi-3.5-vision-instruct 实战教程：从入门到精通

gitblog_02914的博客

12-26

682

Phi-3.5-vision-instruct 实战教程：从入门到精通 Phi-3.5-vision-instruct 项目地址: https://gitcode.com/mirrors/Microsoft/Phi-3.5-vi...

微软公司的创新：Phi - 3.5 模型本地体验、推理及微调指南

寻道AI，探索AI无限可能！

09-23

1174

在当今这个人工智能技术日新月异的时代，每一次模型创新都可能对行业格局产生深远影响。微软公司推出的 Phi - 3.5 系列模型犹如一颗闪耀的新星，在人工智能的浩瀚星空中崭露头角。它以其独特的设计和卓越的性能，为解决复杂的实际问题提供了新的思路和方法。

谢谢微软，又又又Open了！一口气发布3款Phi-3.5新模型，领先Llama3.1和谷歌同级模型

夕小瑶科技说

08-21

2842

大家觉得Phi-3.5系列的三兄弟表现如何？虽然不同的基准测试可能让大家对他们的能力有不同的评价，褒贬不一，但不得不说，微软这次确实又开放了一个不错的模型，又OpenAI了不是！据奶茶今早看到的新闻，OpenAI 推出了 GPT-4o 微调功能，每天免费送100万Token，允许开发者为特定用例定制模型～结合今天微软的又一开源，开源和闭源的发展越来越像两条快速延伸平行线，一方面是模型的开放，另一方面是在引导应用方向上的开放。对此，大家怎么看？欢迎在评论区分享你的观点，与我们一起探讨！

微软Phi-3.5-Mini-Instruct全参微调中文版来啦

强化学习曾小健

08-26

1665

8月21日，微软发布了模型。是Phi-3模型家族的最新成员，专为高效、先进的自然语言处理任务而设计。该模型具有38 亿个参数，基于Phi-3的数据集（合成数据和经过筛选的公开网站）构建，重点关注高质量、推理密集的数据。该模型属于Phi-3 模型系列，支持 128K 令牌上下文长度。经过了严格的增强过程，结合了监督微调近端策略优化和直接偏好优化，以确保精确遵守指令和强大的安全措施。Phi-3.5 mini 在强中文场景有所增。

Phi-3 模型手机部署教程（微软发布的可与GPT-3.5媲美的小模型）

老牛啊

06-23

2033

Phi 是微软AI研究院新推出的开源小型语言模型，适用于商业使用，其优势在于体积小、资源需求少，被称为“一个能跑在手机上的大模型”，我们通过Termux和Ollama工具，在我们手机上部署和体验……

《Phi-3.5-vision-instruct模型的最佳实践指南》

gitblog_02081的博客

01-14

527

《Phi-3.5-vision-instruct模型的最佳实践指南》 Phi-3.5-vision-instruct 项目地址: https://gitcode.com/mirrors/Microsoft/Phi-3.5-vis...

多图理解，更懂中文，支持function call的Phi-3.5来了！

m0_59164520的博客

09-24

1938

使用ollama create命令创建自定义模型。

微软发布Phi 3.5系列模型；OpenAI推出GPT-4o微调功能；字节发布自动语音识别模型 | AI头条...

AI科技大本营

08-21

709

整理 | 王启隆出品 | AI 科技大本营（ID：rgznai100）一分钟速览新闻点！微软发布 Phi 3.5 系列模型OpenAI 推出 GPT-4o 微调功能，助力开发者定制模型字节跳动推出 Seed-ASR 语音识别模型OpenAI 与康泰纳仕达成合作，引领出版行业GitHub CEO Thomas Dohmke：与 AI 融合，引领软件开发新潮流洛杉矶联合学区为 AI 聊天机器人付费数百...

微软的Phi-3.5系列发布三重威胁

08-22

681

微软通过新的 Phi-3.5 系列在 AI 领域迈出了新的一步，提供了三种为不同任务设计的最先进模型。这些模型不仅功能强大，而且用途广泛，使开发人员能够轻松处理从基本编码到复杂问题解决，甚至视觉任务。无论您是使用有限资源，还是需要高级的 人工智能 功能，Phi-3.5 系列模型都能满足您的需求，以下是一个快速概览。

Lite-MDETR：轻量化多模态检测器的创新设计

" Lite-MDETR 是一种轻量级的多模态检测器，旨在解决在移动设备上部署多模态检测模型时遇到的硬件资源限制问题。它采用了一种称为字典查找变换 (DLT) 的技术，该技术能够将多模态检测器中的线性变换分解为更小的字典...