试过GPT-4V后,微软写了个166页的测评报告!业内人士:高级用户必读

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态和Transformer】交流群

在CVer微信公众号后台回复:GPT视觉,可以下载本论文pdf,学起来!

转载自:机器之心 | 编辑:陈萍、张倩

这篇由微软撰写的报告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潜力的人,都值得一读。

一周之前,ChatGPT迎来重大更新,不管是 GPT-4 还是 GPT-3.5 模型,都可以基于图像进行分析和对话。与之对应的,多模态版GPT-4V模型相关文档也一并放出。当时 OpenAI 放出的文档只有18页,很多内容都无从得知,对于想要更深入了解GPT-4V应用的人来说,难度还是相当大的。

短短几天时间,当大家还在死磕OpenAI 放出的18页文档时,微软就公布了一份长达166页的报告,定性地探讨了GPT-4V的功能和使用情况。

b2884fe2d49a56312b7075a1c7528d9a.png

报告地址:https://arxiv.org/pdf/2309.17421.pdf

MedARC(医疗人工智能研究中心)联合创始人兼CEO Tanishq Mathew Abraham表示,「这篇报告将是GPT-4V高级用户的必读之作

7748449ff92f958ee1980ba0c9bd3b39.png

该报告共分为11个章节,重点是对最新模型 GPT-4V(ision)进行分析,以加深大众对 LMM(大型多模态模型) 的理解。文章用很大篇幅介绍了GPT-4V可以执行的任务,包括用测试样本来探索GPT-4V的质量和通用性,现阶段GPT-4V能够支持的输入和工作模式,以及提示模型的有效方法。

在探索 GPT-4V 的过程中,该研究还精心策划组织了涵盖各个领域和任务的一系列定性样本。对这些样本的观察表明,GPT-4V 在处理任意交错的多模态输入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成为强大的多模态通用系统。 

此外,GPT-4V 对图像独特的理解能力可以催生新的人机交互方法,例如视觉参考提示(visual referring prompting)。报告最后深入讨论了基于 GPT-4V 的系统的新兴应用场景和未来研究方向。该研究希望这一初步探索能够激发未来对下一代多模态任务制定的研究,开发和增强 LMM 解决现实问题的新方法,并更好地理解多模态基础模型。

下面我们逐一介绍每个章节的具体内容。

论文概览

论文第一章介绍了整个研究的基本情况。作者表示,他们对GPT-V4的探讨主要在以下几个问题的指导下进行:

1、GPT-4V 支持哪些输入和工作模式?多模态模型的通用性必然要求系统能够处理不同输入模态的任意组合。GPT-4V 在理解和处理任意混合的输入图像、子图像、文本、场景文本和视觉指针方面表现出了前所未有的能力。他们还证明,GPT-4V 能够很好地支持在 LLM 中观察到的test-time技术,包括指令跟随、思维链、上下文少样本学习等。

2、GPT-4V 在不同领域和任务中表现出的质量和通用性如何?为了了解 GPT-4V 的能力,作者对涵盖广泛领域和任务的查询进行了采样,包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等。GPT-4V 在许多实验领域都表现出了令人印象深刻的人类水平的能力。

3、使用和提示 GPT-4V 的有效方法是什么?GPT-4V 能够很好地理解像素空间编辑,例如在输入图像上绘制的视觉指针和场景文本。受这种能力的启发,研究者讨论了「视觉参考提示」,它可以直接编辑输入图像以指示感兴趣的任务。视觉参考提示可与其他图像和文本提示无缝结合使用,为教学和示例演示提供了一个细致入微的界面。

4、未来的发展方向是什么?鉴于 GPT-4V 在跨领域和跨任务方面的强大能力,我们不禁要问,多模态学习乃至更广泛的人工智能的下一步是什么?作者将思考和探索分为两个方面,即需要关注的新出现的应用场景,以及基于 GPT-4V 系统的未来研究方向。他们介绍了他们的初步探索结果,以启发未来的研究。

GPT-4V的输入模式

论文第二章总结了GPT-4V支持的输入,分为纯文本、单个图像-文本对、交错图像-文本输入(如图1)三种情况。

ee283e4c54a311b11fd1ad24c7a0dc0c.png

GPT-4V的工作模式和提示技术

论文第三章总结了GPT-4V的工作模式和提示技术,包括:

1、遵循文字说明:

f6d70e6ef636e7feac9cdff440a863b1.png

2、视觉指向和视觉参考提示:

6b418912c5e621cddc09c3c498e80e72.png

d97aaf0752480024e47e651eea9579c3.png

3、视觉+文本提示:

cd02628703d02a89e73da341bcaa8bd9.png

4、上下文少样本学习:

3124ca9981514ab7b721c9d157d5b490.png

209e6abf9d4156cc3a44b5e8d673e9df.png

104245d4665c212d25058a607b27f3a5.png

视觉-语言能力

论文第四章研究了如何利用 GPT-4V 来理解和解释视觉世界。

首先4.1节探讨了GPT-4V对不同域图像的识别能力,包括识别不同的名人,并能详细描述名人的职业、行为、背景、事件等信息。

ab7e9cde2001471cd683f9cbba99d566.png

除了识别名人外,GPT-4V能准确识别测试图像中的地标,还能产生生动而详细的叙述,从而捕捉地标的特性。

cdf8e65968b8e3dd5031d7f9768a0574.png

GPT-4V还可以识别各种菜肴,并给出菜肴中的特定成分,装饰物或烹饪技术。

1f30f222164afb8f3e767f66d2cd5def.png

除此以外,GPT-4V还可以识别常见的疾病,例如其能根据肺部的CT扫描指出潜在的问题,又或者对给定的x光片中的牙齿和颌骨,解释下颌左下方和右侧部分出现的智齿可能需要切除;GPT-4V能正确识别徽标,并提供详细的描述,包括其设计,颜色,形状和符号;如果提示中出现的问题与照片不符,GPT-4V也能进行反事实推理。

58e1aae277e5d5248a7931c8b3cb4d12.png

4.2节探讨了GPT-4V对目标的定位、计数和密集字幕生成。

下图表明GPT-4V能够理解图像中人与物体之间的空间关系,例如识别飞盘和人之间的空间关系。

8abc6159caf40667a7f4764026a257c8.png

GPT-4V能够确定图像中指定物体的数量,下图表明GPT-4V成功地计算出图像中出现的物体的数量,如苹果、橘子和人。

89ca777cde853438d48b92721914a190.png

GPT-4V成功地定位和识别图像中的个体,然后为每个个体提供简洁的描述。

c20ce1f68843c427da2919a89b49c136.png

4.3节介绍了GPT-4V能够进行多模态理解以及对常识的掌握能力。下图展示了GPT-4V能够解释笑话和梗图:

bab0d2c6329c190a3e7acbfe8c3127fb.png

GPT-4V能够回答科学问题:

9691a5e619e3efdaa62885b366493777.png

GPT-4V还能进行多模态常识推理:

9993a103a23406fd5f0e05e407cf635d.png

4.4节介绍了GPT-4V对场景文本、表格、图表和文档的推理能力。

GPT-4V可以进行数学推理:

26f522d3c755a7108c33def4992ba7cd.png

理解流程图:

e6bd982942d52624102f119644210fdd.png

理解表格细节:

5c02a24eff40ef40852521548872e54f.png

GPT-4V还能阅读一份多页的技术报告,理解每个部分的内容,并对该技术报告进行总结:

0e79dc81b31d2d0a0ea1517de68692ed.png

4.5节介绍了GPT-4V对多语言多模态的理解。

GPT-4V能够生成不同语言的图像描述:

884929ad2f857f7c398e70de33512182.png

GPT-4V对多语言文本识别、翻译和描述的结果:

aa350b5345d723f3df704c3463f925e2.png

4.6节介绍了GPT-4V的编码能力。

基于手写数学方程生成LaTeX代码的能力:

4007a674a6e1492ce050d2f493545b49.png

GPT-4V生成Markdown/LaTex代码以重建图像中表的能力:

acd5b46c48215ab7a7d173ac9082e6b3.png

GPT-4V编写代码以复制输入图形的能力:

9f5f60bb7e0c62efb61eca7d4dc5a8a5.png

与人类的互动:视觉参考提示

在与多模态系统的人机交互中,指向特定空间位置是一项基本能力,例如进行基于视觉的对话。第 5.1 节显示,GPT-4V 可以很好地理解直接画在图像上的视觉指针。基于这一观察结果,研究者提出了一种名为「视觉参考提示(visual referring prompting)」的新型模型交互方法。如图 50 所示,其核心思想是直接编辑图像像素空间,绘制视觉指针或场景文本,作为人类的参照指示。作者在第 5.2 节详细介绍了这种方法的用途和优势。

cf95d3cf05174bb29b4707507f0e38dc.png

ef986e0e9e0589b24c712c235a79e384.png

ad003c8d88f5d28a3cde1cedb7caaefd.png

5655dbfd7e7702b62f066ce1c5b07c40.png

最后,他们在第 5.3 节探讨了如何让 GPT-4V 生成视觉指针输出,以便与人类互动。这些视觉指针对于人类和机器来说都能直观地生成和理解,是人机交互的良好渠道。

b335e96adb91fda4a6a1c7d899047b46.png

时间和视频理解

在第六章,作者讨论了GPT4V 的时间和视频理解能力。尽管 GPT4V 主要以图像作为输入,但评估其对时间序列和视频内容的理解能力仍然是对其整体评估的一个重要方面。这是因为现实世界中的事件会随着时间的推移而展开,而人工智能系统理解这些动态过程的能力在现实世界的应用中至关重要。时序预测、时序排序、时序定位、时序推理和基础时序理解等能力有助于衡量模型在一系列静态图像中理解事件顺序、预测未来事件发生和分析随时间变化的活动的能力。

尽管 GPT-4V 以图像为中心,但它能够以类似人类理解的方式理解视频和时间序列。为了提高像 GPT-4V 这样复杂的人工智能模型的通用性和适用性,这方面的测试对其发展和完善至关重要。

在这一章的实验中,研究者使用了多个选定的视频帧作为输入,以测试模型在理解时间序列和视频内容方面的能力。

多图像序列

1fe2a287efa62474ee1c4c9e013283ab.png

视频理解

fb75e502bbe918399ec287d5747f0e39.png

858ef7c50410ba558ad77ca9a89c7aab.png

9b01af0cc8ff48f4e741d1e0dfb31132.png

c088d3feb07c25b0f19c8364c3cd3927.png

基于时间理解的视觉参考提示

0c8668e06b46788fd72a90a1062c868b.png

视觉推理与智商测试

对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。论文第七章测试了GPT-4V是否可以从视觉信号中抽象语义,并可以执行不同类型的人类智商(IQ)测试。

抽象视觉刺激

db5b44ac4ec205a19878811ad45d6d78.png

部件和物体的发现与关联

265bb4aaba704fe3ca5e09f91e499af3.png

韦氏成人智力量表

12325f3ea83740e91fc54637b99052e6.png

瑞文推理测验

3da24b8c321e35d4346b2de076c131c4.png

217474cfb564bab4c8db1b45bf8c1252.png

情商测验

在与人类互动时,GPT-4V 必须具备同理心和情商(EQ),以理解和分享人类的情感。受人类情商测试定义的启发,作者研究了 GPT-4V 在以下方面的能力:从人的面部表情中识别和解读人的情绪;理解不同的视觉内容如何激发情绪;根据所需的情绪和情感生成适当的文本输出。

从面部表情中读出情感

af3f400e629343e54a102fffd3aa71bc.png

理解视觉内容如何激发情感

c1c5b7fd6b8c7a8cdbef2132e4b550bd.png

224f72e0dc0cb4ed38b1f42175dd156a.png

情绪条件输出

779c373452d1631be8d14fa3c53d9e2e.png

新兴应用亮点

这一章展示了 GPT-4V 的卓越功能可能带来的无数高价值应用场景和新用例。诚然,其中一些应用场景可以通过精心策划用于微调现有视觉和语言(VL)模型的训练数据来实现,但作者想强调的是,GPT-4V 的真正威力在于它能够毫不费力地实现开箱即用。此外,他们还介绍了 GPT-4V 如何与外部工具和插件无缝集成,从而进一步拓展其潜力,实现更多创新和协作应用。

找不同

5b991e09e6824b1a4702817cf1d46757.png

2282496e10023b568b311cde9edd1d98.png

工业

f2deb21a8a79b36e2a183e9f66932907.png

0f7a79ee889d28017fdbffaf80db4182.png

723bbf6999a58591392b9624bcf2fe05.png

1364737cab3a3644afd5685e96a4eaf1.png

3a10d0c557e2441b0e4762691c873117.png

医药

d0d669d0f2000e09bb78d39b7cc54b49.png

e9c1650233f3a397a8ba5913848b632b.png

ee15dc6c92b5fc3cb4674ea60caf3c0d.png

03dc0136515eee6088a21364c1bdf5eb.png

汽车保险

9b6d2705bb263b7322bacc09da4c8d19.png

4a9d6b5caf0a51926e964cb95d40960b.png

编写照片说明

8e2b28039f541c75c6ed878d0207140c.png

9ebf2d5cc285f4d27705f59308eab511.png

图像理解与生成

f73c95dfd5918d66760a79fcd50ba61d.png

5816fb443be4b4b3cde65d181e9bb1c0.png

e4bf4501f722d448381c5dfdef51eed6.png

1b941115fa9b4137ea474458e043e798.png

具身智能体

dbe6df46c993badefcc47bbdbe5a423f.png

35e458af860b2d505f2112da787ce844.png

24b39c4db5ffbdef12b7727450b9fea7.png

63038741dd9b58c664e631f5d1879648.png

图形用户界面(GUI)交互

624316865703c0e209a1acd8cc3b2802.png

c378fe99d018beedafb633a96b213629.png

基于LLM的智能体

论文第十章讨论了 GPT-4V 未来可能的研究方向,重点是 LLM 中的有趣用法如何扩展到多模态场景。

基于ReAct的GPT-4V多模态链扩展:

79b5463bc1eac4d06519c328d0433b5f.png

使用自我反思来改进文本到图像模型SDXL生成的文本提示的示例:

0de3d93184fad107f8f8f2bda3b2ba9e.png

自洽性:

7454bea39ae357bce38c6533a64a13c3.png

检索增强LMM,图74显示了一个检索增强的LMM帮助杂货店结帐的示例。

2ed6f0a54dc904e6b4f4ad56d397926e.png

关于GPT-4V的更多场景应用细节,请查看原论文。

在CVer微信公众号后台回复:GPT视觉,可以下载本论文pdf,学起来!

点击进入—>【多模态学习和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
多模态学习和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值