比GPT 4-Turbo速度快2倍,价格便宜50%!GPT-4o 正式发布!还即将免费

Her看过吧?

现在!

ChatGPT版本的Her也来了!

图片

北京时间5月14日凌晨,OpenAI 一场不到 30 分钟的发布会,正式发布了 GPT-4o,视频语音交互丝滑到吓人,还即将免费可用!

GPT-4o,其中的「o」代表「omni」(即全面、全能的意思),这个模型同时具备文本、图片、视频和语音方面的能力,甚至就是 GPT-5 的一个未完成版。

更重要的是,这个 GPT-4 级别的模型,将向所有用户开放,并且未来几周内先向 ChatGPT Plus 推送。

微软这边,也是在Azure OpenAl Studio上早早进行了跟进。

从今天开始,Azure OpenAI 服务客户可以在美国的两个地区通过Azure OpenAI Studio中的预览游乐场探索 GPT-4o 的广泛功能。

参考链接:
微软 Azure OpenAI 申请

图片

太长不看版:

1.新的 GPT-4o 模型:打通任何文本、音频和图像的输入,相互之间可以直接生成,无需中间转换。

2.GPT-4o 语音延迟大幅降低,能在 232 毫秒内回应音频输入,平均为 320 毫秒,这与对话中人类的响应时间相似。 

3.GPT-4o 向所有用户免费开放 。

图片

(新语音模式几周内先对Plus用户开放)

4.GPT-4o API,比 GPT 4-Turbo 快 2 倍,价格便宜 50% 。

5.惊艳的实时语音助手演示:对话更像人、能实时翻译,识别表情,可以通过摄像头识别画面写代码分析图表 。

6.ChatGPT 新 UI,更简洁。

7.一个新的 ChatGPT 桌面应用程序,适用于 macOS,Windows 版本今年晚些时候推出。

GPT-4o免费可用,但这不是它最大的亮点

端到端训练,一个神经网络搞定语音文本图像

图片

正如奥特曼在发布会前所说,GPT-4o让人感觉像魔法一样。GPT-4o 的强大之处,在于它能接受任何文本、音频和图像的组合作为输入,并直接生成上述这几种媒介输出。

这意味着人机交互将更接近人与人的自然交流。

与旧版的对比:

旧版ChatGPT语音模式,由三个独立模型组成,语音转文本→GPT3.5/GPT-4→文本转语音。平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)

GPT-4o则是跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理。GPT-4o 可以在 232 毫秒内回应音频输入,平均为 320 毫秒,接近于人类对话的反应时间。

而且旧版ChatGPT语音模式丢失了大量的信息,它无法直接感受音调、多个说话者或背景噪音,也无法输出笑声、唱歌声,或表达情感。这一切,在GPT-4o上则都能实现。

与现有模型相比,GPT-4o 在视觉和音频理解方面表现尤为出色。


-你在对话时可以随时打断
-可以根据场景生成多种音调,带有人类般的情绪和情感
-直接通过和 AI 视频通话让它在线解答各种问题

从测试参数来看,GPT-4o 主要能力上基本和目前最强 OpenAI 的 GPT-4 Turbo 处于一个水平。

图片

它在英文和代码文本上与 GPT-4 Turbo 的性能相匹敌,在非英语语言文本上有显著改进,同时在 API 上更快速且价格便宜 50%。

而更令人惊喜的是,ChatGPT 免费用户就能使用 GPT-4o 可以体验以下功能:


-体验 GPT-4 级别的智能
-从模型和网络获取响应
-分析数据并创建图表
-聊一聊你拍的照片
-上传文件以获取摘要、写作或分析帮助
-使用 GPTs 和 GPT Store
-通过 Memory 构建更加有帮助的体验

话不多说,看看演示

睡觉搭子

以一个具体的生活场景为例,让 ChatGPT 讲一个关于机器人和爱的睡前故事,它几乎不用太多思考,张口就能说出一个带有情感和戏剧性的睡前故事。

甚至它还能以唱歌的形式来讲述故事,简直可以充当用户的睡眠搭子。

做题高手

图片

又或者,在发布会现场,让其演示如何给线性方程 3X+1=4 的求解提供帮助,它能够一步步贴心地引导并给出正确答案。

当然,上述还是一些「小儿戏」,现场的编码难题才是真正的考验。不过,三下五除二的功夫,它都能轻松解决。

图片

借助 ChatGPT 的「视觉」,它能够查看电脑屏幕上的一切,譬如与代码库交互并查看代码生成的图表,咦,不对劲?那我们以后的隐私岂不是也要被看得一清二楚了?

图片

实时翻译

现场的观众也给 ChatGPT 提出了一些刁钻的问题。

从英语翻译到意大利语,从意大利语翻译到英语,无论怎么折腾该 AI 语音助手,它都游刃有余,看来没必要花大价钱去买翻译机了,在未来,指不定 ChatGPT 可能比你的实时翻译机还靠谱。

实时翻译(官网案例)

感知语言的情绪还只是第一步,ChatGPT 还能解读人类的的面部情绪。

图片

在发布会现场,面对摄像头拍摄的人脸,ChatGPT 直接将其「误认为」桌子,正当大家伙以为要翻车时,原来是因为最先打开的前置摄像头瞄准了桌子。

不过,最后它还是准确描述出自拍面部的情绪,并且准确识别出脸上的「灿烂」的笑脸。

两个 GPT-4o 互动并唱歌(官网案例)

有趣的是,在发布会的尾声,发言人也不忘 Cue 了英伟达和其创始人老黄的「鼎力支持」,属实是懂人情世故的。

Azure OpenAI已上线GPT-4o预览模型 !

图片

来源于微软官网

微软这边,也是在Azure OpenAl Studio上早早进行了跟进。

从今天开始,Azure OpenAI 服务客户可以在美国的两个地区通过Azure OpenAI Studio中的预览游乐场探索 GPT-4o 的广泛功能。

注意:

GPT-4o 早期访问游乐场目前仅适用于West US3和East US的资源,并且每个订阅每五分钟最多只能有 10 个请求。

即使批准修改,所有早期访问 Playground 用户仍会启用 Azure OpenAI 服务滥用监控;默认内容过滤器已启用且无法修改。

GPT-4o 是 Azure OpenAI 预览模型,目前不可用于部署/直接 API 访问预计5月21日正式上线。

此初始版本侧重于文本和视觉输入,以提供模型潜力的一瞥,为音频和视频等进一步功能铺平道路。

微软表示,GPT-4o 的推出为各个行业的企业带来了无数的可能性: 

-增强的客户服务:通过集成不同的数据输入,GPT-4o 可实现更加动态和全面的客户支持交互。

-高级分析:利用 GPT-4o 处理和分析不同类型数据的能力,以增强决策并揭示更深入的见解。

-内容创新:利用 GPT-4o 的生成能力来创建引人入胜且多样化的内容格式,以满足广泛的消费者偏好。

图片

↑实测,Azure OpenAI企业用户还在等什么,快去体验吧!

出于合规角度,建议国内企业可以选择微软的Azure OpenAI服务来使用接口。

通过微软openai官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

作为微软的合作伙伴,全云在线可为企业开通绿色申请通道!包括Meta Llama 3模型、企业版AZURE OPEN AI 最新版本GPT-4 Turbo、Dalle-3,只要企业有需求,全云在线都能协助快速开通!

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值