GPT-4 Turbo全面开放Vision功能！

最新推荐文章于 2024-10-02 00:23:27 发布

叶锦鲤

最新推荐文章于 2024-10-02 00:23:27 发布

阅读量140

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzAxMjE4MTQ2OA==&mid=2652744275&idx=1&sn=28f1cb1c1640923c9571f4388ed51aee&chksm=817186ca8d9cc01cacb71c0df8c96c7826818ecc4a93af3a12f230e45d6d7602930378547212&scene=126&sessionid=0

版权

OpenAI近期开放了GPT-4Turbo的视觉识别功能，允许开发者进行复杂图像处理，如分类、检测和数据转换。Vision不仅增强了传统OCR功能，还与大模型深度结合，推动了诸如AI代理、美食识别应用及可视化编程平台的开发，扩展了应用开发的边界。

摘要由CSDN通过智能技术生成

以下文章来源于AIGC开放社区，作者：AIGC开放社区

本月初，OpenAI在社交平台宣布，全面开放GPT-4 Turbo API中的Vision（视觉识别）功能，并且很快将上线至ChatGPT。

开发者在使用Vision时可以使用JSON 模式和函数调用。这也就是说，可以通过Vision去做更多复杂、精准的操作，例如，图像的分类、检测、数据转换等。

2023年11月6日，OpenAI在首届开发者大会上发布了GPT-4 Turbo模型，当时已经向部分开发人员开放了Vision。

该功能与传统的OCR（光学字符识别）类似，不过Vision可以将提取的数据与大模型相结合使用，所以，玩法和应用场景更广阔一些。

目前，已经有很多企业和个人开发者通过Vision开发了很多实际的业务用例。

例如，前段时间爆火的首个AI代理Devin的视觉识别功能，便由Vision提供技术支持。

可以快速提取、识别用户输入的任何超链接或图像，并且能基于提取的内容进行深度对话，实现更多的代码功能。

著名应用Snap的开发团队通过Vision，开发了一个识别功能。可以快速检测全球世界各地的美食，并提供详细的营养见解以及饮食需求。

例如，在得到食物的营养列表后，可以继续发问能根据这个食物，给我一份详细的3周减肥计划吗？

有人用Vision开发了一个可视化代码平台，用户只需要在白板UI上进行绘制，就能通过Vision强大的识别和转换能力，将草图直接生成网站。

简单来说，Vision相当于大模型的“眼睛”，可以将很多看到的图像、标签、符号等转化成特定的数据，这极大的扩大了开发应用的边界。

此外，GPT-4-turbo的训练数据也进行了更新，已经截止至2023年12月，比之前多了8个月的时间。上下文方面最多支持12.8万tokens。

— End —

欢迎关注微软智汇AI 官方账号

一手资讯抢先了解

喜欢就点击一下在看吧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。