OpenAI发布新品GPT-4o,电影《HER》演绎的世界真的来了!

5月14日,OpenAI宣布推出最新旗舰生成式AI模型GPT-4o,它可以实时处理音频、视觉、并对文本进行推理。可以说这是一种全新的交互模式,它完美复刻电影《Her》的世界,标志着人工智能全感知时代的到来。

GpuMall智算云 | 省钱、好用、弹性。租GPU就上GpuMall,面向AI开发者的GPU云平台

发布会结束后,OpenAI首席执行官Sam Altman在社交媒体上发表了一个单词“Her”,寓意着GPT-4o有望让科幻电影中演绎的剧情走入现实。#autodl#恒源云#矩池云#算力云#恒源云 实例迁移#autodl 官网#autodi#GpuMall#GPU云#AutoDL#AotuDL 算力云#GpuMall智算云#AI#大数据#算力租赁#大模型#深度学习#人工智能#算力变现

GPT-4o的“o”代表“omni”,意为全能,是迈向更自然人机交互的一步。与现有模型相比,GPT-4o它在视觉和音频理解方面尤其出色,它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似。

在接入GPT-4o后,ChatGPT可接受输入任意文本、音频和图像的组合,并可输出生成文本、音频和图像的任意组合。借助GPT-4oOpenAI跨文本、视觉和音频,端到端地训练了一个新模型,将所有输入和输出都在该模型中交由同一神经网络进行处理。而在API方面,GPT-4o的价格是GPT-4-turbo的一半,速度是GPT-4-turbo的两倍,限制速率高5倍。

发布会上,OpenAI前沿研究部门主管Mark Chen展示了ChatGPT在接入GPT-4o后的实时语音交互能力,如何识别用户语音中的情绪,以及如何用不同的声音朗读AI生成的故事,包括超级戏剧化的朗诵、机器人音调,甚至唱歌。

除了语音情绪识别功能,GPT-4o还具有实时视觉功能,ChatGPT可以变身真实的老师,通过手机摄像头帮助你实时解题。甚至它还能通过前置摄像头观察用户的表情,分析情绪。

GPT-4o还可帮助充当盲人的“第三只眼”,通过GPT-4o模型实时视觉与语音能力,决策辅助能力等,使得盲人和视力受限用户能够通过语音助手的帮助,实时了解周围的环境,帮助用户做出决策,如识别物品、导航指引等。

与传统的AI相比,GPT-4o看起来像是一个朋友,可以更自然亲切的与用户进行交流,它所提供的“陪伴式情绪价值”将AI虚拟陪伴赛道推向了新的维度。于是,针对同一个问题我们也将GPT-4(左)和GPT-4o(右)进行了对比测试,明显看来GPT-4o提供更富有情绪化。

Sam Altmanblog上发文称:“新的语音和视频模式是我用过的最好的电脑界面。这感觉就像电影里的AI,这让我有些惊讶。达到人类反应时间和表达能力是一个很大的变化。”

大家最关心的是什么时候可以在线体验GPT-4o。现在,进入ChatGPT页面,ChatGPT PlusTeam用户可以抢先体验「最新、最先进的模型」GPT-4o。在未来几周内,GPT-4o将分阶段继承在ChatGPT 在内的OpenAI 各个产品中,并免费提供给所有用户使用。

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值