就在刚刚,5 月 14 日凌晨,OpenAI在首次「春季新品发布会」上,发布了最新一代旗舰大模型GPT-4o,与之前只能打文字相比,变得更智能,可横跨语音、文本和视觉,超低时延的语音助手和翻译,并且可以感知人类情绪。
让外界期待的正在测试的GPT-5和搜索引擎并没有出现,但 OpenAI 还是放了一个大招,GPT-4o免费用户也可以直接用。
GPT-4o的文本和图像功能将于发布会当天在 ChatGPT 中推出,免费用户就可以使用,不过 Plus 付费用户能享受高达 5 倍的消息容量。
在未来几周内,OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。
整场发布会时长仅30分钟,OpenAI CTO米拉·穆拉蒂(MiraMurati)在开头表示,这是我们第一次在易用性方面真正迈出一大步,这种互动变得更加自然,也更加容易。
此外,OpenAI还发布了桌面版的ChatGPT和新的用户界面。
GPT-4o主要亮点:
1、多模态,可横跨语音、文本和视觉,是一个端到端地训练的新模型
2、GPT-4o的价格是GPT-4-turbo的一半,速度却是GPT-4-turbo的两倍,速率限制也高5倍
3、超低时延的语音助手和翻译,并且可以感知人类情绪,可根据指令提供更丰富语音语调或不同风格
大模型在多模态的演变中正变得越来越复杂,GPT-4o此次升级了ChatGPT的视觉能力和语音能力,并且懂情绪,这也开启新的人机交互方式,语音助手不再是冷冰冰的,大幅提升了大模型的实用性。
GPT-4o让重新颠覆了语音助手,能听、能看、能说,最重要的是开始理解人类的表情和懂得人类的情绪,让美版电影《她》照进现实。
值得注意的是,此次发布会OpenAI CEO萨姆·奥尔特曼并未现身。奥尔特曼也在X上表示:“GPT-4o是我们最好的模型。”
在文本方面,据OpenAI 的技术报告,GPT-4o 在 MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评测指标上,都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本),以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上,GPT-4o 创下了 88.7% 的新高分。
在此次OpenAI 推出基于 GPT-4o 的「超级智能助理」之后,这或将对苹果的个人语音助理 Siri 带来颠覆性影响,此外,也有人担心客服可能彻底失业了。
**依然让外界惊讶**
在所有语言的基准测试中,GPT-4o都比 GPT-4 更强。另外在视觉理解评估上,GPT-4o 在视觉感知基准上都实现了最先进的性能。
OpenAICEO奥特曼都惊叹:就像美剧《她》要照进现实。
《她》讲述了作家西奥多在结束了一段令他心碎的爱情长跑之后,他爱上了电脑操作系统里的女声,这个叫“萨曼莎”的姑娘不仅有着一把略微沙哑的性感嗓音,并且风趣幽默、善解人意,让孤独的男主泥足深陷。
《她》的情节中,有一幕也让现实中的我们需要深思。有一次,萨曼莎无缘无故从电脑上消失了,西奥多恐慌极了。萨曼莎解释自己是去参加了一次OS系统的升级活动。西奥多进一步询问,萨曼莎最终坦白,她总共有8316位人类交互对象,而且与其中的641位发生了爱情,而西奥多只是其中的一位。
最终,萨曼莎告诉西奥多,她和其他的OS系统已经高度进化,并且将离开人类伴侣。
值得注意的是,根据OpenAI的安全评估,GPT-4o在网络安全等风险维度上都控制在中等水平以下。但其语音模态带来一些新的安全挑战,需要持续迭代改进。目前向公众开放的是文本和图像输入,以及文本输出。语音输出将限定为预设的声音。
OpenAI官网博客显示,GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步。它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
在与GPT-4o语音实时对话过程中,三人与其对话,可随意打断,GPT-4o反应极快,并且语气相当丰富,像极了在跟人类聊天,可根据需求,改变声音和满足不同风格的情感需求。
GPT-4o 还拥有 3D 视觉内容生成的能力,能够从 6 个生成的图像进行 3D 重建:
GPT-4o除了有很强的文生图能力和设计海报能力,还可以只需要输入几段文字,就能得到一组连续的漫画分镜。
GPT-4o 还拥有有趣的设计思维:
一个端到端新模型
在API定价方面,GPT-4o的价格是GPT-4-turbo的一半,速度却是GPT-4-turbo的两倍,速率限制也高5倍,语音、视频输入能力将率先对部分可信任的API用户开放。
OpenAIGPT-4o核心亮点是在现场的展示,在与GPT-4o语音实时对话过程中,可实时存档,具有实时响应能力和极强的语音理解能力。演示人员用大口的呼吸,缓解紧张。GPT-4o在接受到呼吸后,立刻反馈呼吸的声音不对,还调侃声音像吸尘器。并且用语音方式引导正确的呼吸方式。
三人与其对话,可随意打断,GPT-4o反应极快,并且语气相当丰富,像极了在跟人类聊天,可根据需求,改变声音和满足不同风格的情感需求。
GPT-4o的运行速度大大提升,最大亮点在于其语音交互模式采用了全新技术,让人机对话的响应速度大幅提升。
OpenAI官网博客显示,GPT-4o在谈话中对音频输入的平均响应时间为320毫秒,最短的响应时间为232毫秒,在GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
而在GPT-4o 上,是单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。
英伟达科学家 Jim Fan 表示,从技术角度来看,OpenAI 已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。
GPT-4o还有超高的“语言天赋”,包括可以指令出机器人的声音,能支持50种语言,并显着提高了非英语语言的性能,包括改进分词器以更好地压缩其中的许多语言。
GPT-4o采用全新的tokenizer,大幅提高了对各种语言的编码效率,比如古吉拉特语的token数减少了4.4倍,这其中包括20种语言,如英语、法语、德语、葡萄牙语、西班牙语等,其中也包括中文。
在三人对话中,GPT-4o在现场充当实时翻译,意大利语和英语即听即翻,感觉同传要失业了
可以说GPT-4o,打开了新世界,当我们打开手机摄像头,GPT-4o的视频模式还可以实时看着图表的内容和数据变化,快速回答问题。并且正确理解人类的面部情绪,是开心,还是不开心。
编程方面,在GPT-4o看不见的屏幕任何内容情况下,人只需要highlight一下代码,GPT-4o就可以开始作答。
对于大模型未来走向,可以说,越来越打破原有认知,特别是在迭代速度方面,相信在不远的将来,外星人看了,也会惊讶。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
-END-
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓