在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
借助 GPT-4o,我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。
GPT-4o("o"代表"omni")是AI领域中备受瞩目的新星,它就是曾在AI竞技场中以压倒性优势获得公众评审第一的"gpt2-chatbot"。与GPT-4 Turbo相比,GPT-4o的价格降低了一半,速度则提升了两倍。为了确保每个人都能从AI中受益,OpenAI决定免费向全球提供GPT-4o。
GPT-4o与以往的多模型合作方案不同,它由单一神经网络同时处理文本、音频和图像。这意味着它不仅能够区分多个特定说话者,识别音调或背景噪音,还可以自由切换声线,输出笑声、歌唱或表达情感。
在视觉处理方面,GPT-4o同样表现卓越。它可以根据指定细节生成或编辑图像,例如按特定顺序堆叠不同颜色和数字的积木、将多角度照片合成为3D模型、让同一人物或物体出现在不同场景中,甚至可以以纹身的样式将整首古诗编辑到你的手臂上。
目前了解到已经支持的网站Treasure Box,快来试试看吧