GPT-4 Turbo全面开放Vision功能!

OpenAI近期开放了GPT-4Turbo的视觉识别功能,允许开发者进行复杂图像处理,如分类、检测和数据转换。Vision不仅增强了传统OCR功能,还与大模型深度结合,推动了诸如AI代理、美食识别应用及可视化编程平台的开发,扩展了应用开发的边界。
摘要由CSDN通过智能技术生成

以下文章来源于AIGC开放社区,作者:AIGC开放社区

本月初,OpenAI在社交平台宣布,全面开放GPT-4 Turbo API中的Vision(视觉识别)功能,并且很快将上线至ChatGPT。

开发者在使用Vision时可以使用JSON 模式和函数调用。这也就是说,可以通过Vision去做更多复杂、精准的操作,例如,图像的分类、检测、数据转换等。

dfb057a56c922059947d6372649bcdb6.png

2023年11月6日,OpenAI在首届开发者大会上发布了GPT-4 Turbo模型,当时已经向部分开发人员开放了Vision。

该功能与传统的OCR(光学字符识别)类似,不过Vision可以将提取的数据与大模型相结合使用,所以,玩法和应用场景更广阔一些。

目前,已经有很多企业和个人开发者通过Vision开发了很多实际的业务用例。

例如,前段时间爆火的首个AI代理Devin的视觉识别功能,便由Vision提供技术支持。

可以快速提取、识别用户输入的任何超链接或图像,并且能基于提取的内容进行深度对话,实现更多的代码功能。

著名应用Snap的开发团队通过Vision,开发了一个识别功能。可以快速检测全球世界各地的美食,并提供详细的营养见解以及饮食需求。

例如,在得到食物的营养列表后,可以继续发问能根据这个食物,给我一份详细的3周减肥计划吗?

有人用Vision开发了一个可视化代码平台,用户只需要在白板UI上进行绘制,就能通过Vision强大的识别和转换能力,将草图直接生成网站。

简单来说,Vision相当于大模型的“眼睛”,可以将很多看到的图像、标签、符号等转化成特定的数据,这极大的扩大了开发应用的边界。

此外,GPT-4-turbo的训练数据也进行了更新,已经截止至2023年12月,比之前多了8个月的时间。上下文方面最多支持12.8万tokens。

— End —

4934d3c88566e2a1c2e6c265d92fe7a6.png


欢迎关注微软 智汇AI 官方账号

一手资讯抢先了解

6588f97bfe4db7dbb114fb22c0786cc3.jpeg

ac1d6755093300433d122a926d32c13c.jpeg

喜欢就点击一下 在看 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值