GPT-4o omni全能 openAI新flagship旗舰模型,可以通过音频、视觉、文本推理。自然人机交互,听懂背景噪音、笑声、歌声或表达情感,也能输出。

新旗舰模型GPT-4o

GPT-4o 是openAI新flagship旗舰模型,可以通过音频、视觉、文本推理reason,也能组合输出text, audio, and image。

接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。
速度快 2 倍,价格减半,速率限制高出 5 倍。GPT-4o 在视觉和音频理解方面尤其出色。

自然人机交互,听懂背景噪音、笑声、歌声或表达情感,也能输出这些。

之前语音交互是语音转文本,文本生成文本,文本生成语音输出。会丢失大量信息。GPT-4o,在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型,所以我们仍然只是在探索该模型可以做什么及其局限性的表面。

能力探索

  1. 视觉叙事 - Robot Writer’s Block
  2. 视觉叙事 - 邮递员莎莉
  3. 电影《侦探》海报创作
  4. 角色设计 - Geary the robot
  5. 诗意的排版与迭代编辑 1
  6. 诗意排版与迭代编辑 2
  7. GPT-4o纪念币设计
  8. 照片到漫画
  9. 文本到字体
  10. 3D 对象合成
  11. 品牌展示位置 - 杯垫上的徽标
  12. 诗意的排版
  13. 多行渲染 - 机器人短信
  14. 与多位发言人的会议记录
  15. 讲座总结
  16. 变量绑定 - 多维数据集堆叠
  17. 具体诗歌

模型评估

GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。
在这里插入图片描述
token更少

模型安全性和局限性

新的安全护栏

  • 14
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小黄人软件

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值