快来围观普通用户如何玩转GPT-4V

AI赛博彭于晏

已于 2024-01-19 20:17:21 修改

阅读量1.3k

点赞数 22

文章标签：自动化 selenium 单元测试 chatgpt 人工智能 gpt-3 python

于 2024-01-19 20:15:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gerouhsius/article/details/135706239

版权

快来围观普通用户如何玩转GPT-4V

概述

先看官方文档的介绍

GPT-4 with Vision（有时称为GPT-4V或gpt-4-vision-preview在 API 中）允许模型接收图像并回答有关图像的问题。从历史上看，语言模型系统受到单一输入模式（文本）的限制。对于许多用例来说，这限制了 GPT-4 等模型的使用领域。

目前，所有可以通过模型和聊天完成 API访问 GPT- 4 的开发人员都可以使用具有视觉功能的 GPT-4，该 API 已更新为支持图像输入。gpt-4-vision-preview请注意，Assistants API目前不支持图像输入。

重要的是要注意以下几点：

由于我们自动插入对话中的系统消息，具有视觉功能的 GPT-4 Turbo 的行为可能与 GPT-4 Turbo 略有不同

具有视觉功能的 GPT-4 Turbo 与 GPT-4 Turbo 预览模型相同，在文本任务上的表现同样出色，但添加了视觉功能

视觉只是模型拥有的众多功能之一

生成式AI 应用的一大突破，是ChatGPT 开始支援多模态(multi-modal)，换句话说ChatGPT 现在可以看、可以听，也可以说了。在社群上，大家会用GPT-4V 来称呼可以读图片的GPT (V 代表Vision，也就是视觉的意思)。

举例来说，下面的截图是美国有个网友，分享他上传一个超复杂的停车告示牌照片，加上要停车的时间，ChatGPT 就直接帮忙判断现在能不能免费停车、可以免费停多久。

在这里插入图片描述

该网友评论「我从此不会再拿到违规停车罚单了」，只能说多模态真的开启非常多应用的可能性呀！

这边帮大家汇整网络上已经有的GPT-4V 应用，只能说非常惊人：

例子

把小学生写作业，只需要把试卷拍照，发给GPT-4V，GPT-4V就能够理解图片，并且将答案输出出来
在这里插入图片描述
按照图片，写前端页面代码

写高等题目

甚至还有，脑筋急转弯

题目：威利躲哪里去了？
在这里插入图片描述
甚至还有

ChatGPT 辨识出有毒的蘑菇，还可以演绎吃下蘑菇后产生幻觉
在这里插入图片描述

辨识漫画角色？就算背对着也没问题！

总结

虽然很强大

但是还有有他的局限性

虽然具有视觉功能的 GPT-4 功能强大并且可以在许多情况下使用，但了解该模型的局限性也很重要。以下是我们意识到的一些限制：

医学图像：该模型不适合解释 CT 扫描等专业医学图像，也不应用于提供医疗建议。

非英语：在处理包含非拉丁字母文本（例如日语或韩语）的图像时，模型可能无法获得最佳性能。

小文本：放大图像中的文本以提高可读性，但避免裁剪重要细节。

旋转：模型可能会误解旋转/颠倒的文本或图像。

视觉元素：模型可能难以理解颜色或样式（如实线、虚线或点线）变化的图形或文本。

空间推理：该模型难以完成需要精确空间定位的任务，例如识别国际象棋位置。

准确性：在某些情况下，模型可能会生成不正确的描述或标题。

图像形状：模型难以处理全景和鱼眼图像。

元数据和调整大小：模型不处理原始文件名或元数据，图像在分析之前会调整大小，从而影响其原始尺寸。

计数：可以给出图像中对象的近似计数。

验证码：出于安全原因，我们实施了一个系统来阻止验证码的提交。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。