​Her ? GPT-4o

46090d4c059a8aeb92523e1e5e15a522.png

《Her》电影,讲述了一个关于现代世界中亲密关系的演变和风险的爱情故事。故事设定在稍有未来感的洛杉矶,主角Theodore Twombly是一个富有复杂感情的男人,靠为他人写感人的私人信件谋生。在一段感情结束后,他对一种新型的先进操作系统产生了兴趣。通过这个系统,他与一个名为"Samantha"的聪明、敏感且有趣的女声相遇并建立了友谊,随着他们的需求和欲望的发展,他们的友谊逐渐深化为一段非传统的爱情。

昨天,OpenAI发布了GPT-4o,可以理解为更为强大的GPT4模型的发布。多模态的输入和输出,响应时间与人类相似。多模态意味着,Her电影里的AI我们很快就能体验到了。

1倍速的语音聊天是什么体验 ? 


GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

端到端全新模型

在 GPT-4o 之前,ChatGPT的语音模式对话,最低延迟为 2.8 秒。这个版本的语音模式是由三个独立模型组成的:一个模型将音频转录为文本,GPT接收文本并输出文本,第三个模型将该文本转换回音频。这个过程意味着GPT丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

借助 GPT-4o,一个全新的模型,跨文本、视觉和音频端到端完成训练,这意味着所有输入和输出都由同一神经网络处理。—— 相应速度更快,理解更准确。

在OpenAI使用了几个例子来演示GPT-4o的潜在应用场景:面试准备、两个 GPT-4os 互动并唱歌、实时翻译、客户服务概念证明等。

应用场景

另外,还有一些例子,几乎所有场景都覆盖了:

视觉叙事,用来创作漫画之类的,变得更为简单轻松。

海报创作,电影风格的海报信手拈来。

角色设计,排版,纪念币设计,照片生成漫画,修改文字字体,3D生成,品牌周边产品生成,多个发言者的会议纪要,讲座总结。

4d44a051008d48ad77f48f734976a392.png

b7f6f32811879a2c1786f4f13ca5c5a3.png

安全性

GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,内置了安全性。另外,还创建了新的安全系统,为语音输出提供防护。安全性方面通过内部和外部专家的合作,微调和测试了模型的安全性。需要注意的是,音频模式是一种全新的模式,可能会带来了各种新的风险。

在哪里可以使用?

GPT-4o 的文本和图像功能今天开始在 ChatGPT 中可用。

未来几周内,将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版

开发人员可以在 API 中访问 GPT-4o 作为文本和视觉模型。GPT-4o 速度提高 2 倍,价格降低一半。

9799f7f51bf2c3af9a063dd72c2384c4.png

社群交流

4509563198d9701135b3180938fabe6e.jpeg

a7c0f8a6e6d56eff5d9bcc31dbf855dd.jpeg

备注:gpt4

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值