OpenAI 发布全球最强大模型 GPT-4o

最新推荐文章于 2024-05-15 15:53:19 发布

沉睡的小五郎

最新推荐文章于 2024-05-15 15:53:19 发布

阅读量173

点赞数 3

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/allen_he_123/article/details/138837392

版权

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

借助 GPT-4o，我们跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型，因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。

GPT-4o（"o"代表"omni"）是AI领域中备受瞩目的新星，它就是曾在AI竞技场中以压倒性优势获得公众评审第一的"gpt2-chatbot"。与GPT-4 Turbo相比，GPT-4o的价格降低了一半，速度则提升了两倍。为了确保每个人都能从AI中受益，OpenAI决定免费向全球提供GPT-4o。

GPT-4o与以往的多模型合作方案不同，它由单一神经网络同时处理文本、音频和图像。这意味着它不仅能够区分多个特定说话者，识别音调或背景噪音，还可以自由切换声线，输出笑声、歌唱或表达情感。

在视觉处理方面，GPT-4o同样表现卓越。它可以根据指定细节生成或编辑图像，例如按特定顺序堆叠不同颜色和数字的积木、将多角度照片合成为3D模型、让同一人物或物体出现在不同场景中，甚至可以以纹身的样式将整首古诗编辑到你的手臂上。

目前了解到已经支持的网站Treasure Box，快来试试看吧

沉睡的小五郎

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
OpenAI 发布全球最强大模型 GPT-4o

为了实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。GPT-4o（"o"代表"omni"）是AI领域中备受瞩目的新星，它就是曾在AI竞技场中以压倒性优势获得公众评审第一的"gpt2-chatbot"。它可以根据指定细节生成或编辑图像，例如按特定顺序堆叠不同颜色和数字的积木、将多角度照片合成为3D模型、让同一人物或物体出现在不同场景中，甚至可以以纹身的样式将整首古诗编辑到你的手臂上。
复制链接

扫一扫

沉睡的小五郎 CSDN认证博客专家 CSDN认证企业博客

码龄7年

16: 原创

23万+: 周排名

6万+: 总排名

3万+: 访问

: 等级

356: 积分

1095: 粉丝

34: 获赞

2: 评论

108: 收藏

私信

关注

热门文章

最新评论

小程序登录流程全解析
无风起浪as: 引用「后端自定义新的密钥并关联返回的 session_key 和 openid，将新的密钥返给前端」我们老师说你这个东西是错误的下来多看看书害得劳资超五遍
Vue-Quill-Editor在vue中的使用方式
小迷糊的暖宝宝: 安装报错[code=plain] Refusing to install package with name "vue-quill-editor" under a package npm ERR! also called "vue-quill-editor". Did you name your project the same npm ERR! as the dependency you're installing? [/code]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。