GPT-4o omni全能 openAI新flagship旗舰模型，可以通过音频、视觉、文本推理。自然人机交互，听懂背景噪音、笑声、歌声或表达情感,也能输出。

最新推荐文章于 2024-05-28 17:33:16 发布

小黄人软件

最新推荐文章于 2024-05-28 17:33:16 发布

阅读量627

点赞数 14

文章标签：音视频人机交互学习 GPT-4o

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenhao0568/article/details/138854421

版权

新旗舰模型GPT-4o

GPT-4o 是openAI新flagship旗舰模型，可以通过音频、视觉、文本推理reason，也能组合输出text, audio, and image。

接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。
速度快 2 倍，价格减半，速率限制高出 5 倍。GPT-4o 在视觉和音频理解方面尤其出色。

自然人机交互，听懂背景噪音、笑声、歌声或表达情感,也能输出这些。

之前语音交互是语音转文本，文本生成文本，文本生成语音输出。会丢失大量信息。GPT-4o，在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型，所以我们仍然只是在探索该模型可以做什么及其局限性的表面。

能力探索

视觉叙事 - Robot Writer’s Block
视觉叙事 - 邮递员莎莉
电影《侦探》海报创作
角色设计 - Geary the robot
诗意的排版与迭代编辑 1
诗意排版与迭代编辑 2
GPT-4o纪念币设计
照片到漫画
文本到字体
3D 对象合成
品牌展示位置 - 杯垫上的徽标
诗意的排版
多行渲染 - 机器人短信
与多位发言人的会议记录
讲座总结
变量绑定 - 多维数据集堆叠
具体诗歌

模型评估

GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力方面创下了新的高水位线。
在这里插入图片描述
token更少

模型安全性和局限性

新的安全护栏

小黄人软件

关注

14
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
GPT-4o omni全能 openAI新flagship旗舰模型，可以通过音频、视觉、文本推理。自然人机交互，听懂背景噪音、笑声、歌声或表达情感,也能输出。

之前语音交互是语音转文本，文本生成文本，文本生成语音输出。GPT-4o，在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型，所以我们仍然只是在探索该模型可以做什么及其局限性的表面。GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力方面创下了新的高水位线。接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小黄人软件 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。