OpenAI GPT-4o震撼登场：实时响应、全能交互的AI新体验、再登新峰！

本文链接：https://blog.csdn.net/heehelcom/article/details/138844920

OpenAI 刚刚发布了 GPT-4o，这是一种新的人工智能模式，集合了文本、图片、视频、语音的全能模型。能实时响应用户的需求，并通过语音来实时回答你，你可以随时打断它。还具有视觉能力，能识别物体并根据视觉做出快速的响应和回答，具有非常强的逻辑推理能力。它的速度比 GPT4-turbo 快 2 倍，价格便宜 50%！

更详细的功能介绍和展示：https://openai.com/index/hello-gpt-4o/

AIGC专区：
https://heehel.com/category/aigc

更多消息：
https://heehel.com/category/ai-news

GPT-4o（“o”代表“omni”即是“全能”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入，平均为 320 毫秒，这与人类在对话中的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能显着提高，同时 API 的速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。我们还创建了新的安全系统，为语音输出提供防护。

准备框架并符合我们的自愿承诺。我们对网络安全、CBRN、说服力和模型自主性的评估表明，GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。该评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本，以更好地激发模型功能。

社会心理学、偏见和公平以及错误信息等领域的外部专家，以确定新增加的模式引入或放大的风险。我们利用这些经验来制定安全干预措施，以提高与 GPT-4o 交互的安全性。我们将继续降低发现的新风险。

我们认识到 GPT-4o 的音频模式带来了各种新的风险。今天，我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里，我们将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。例如，在发布时，音频输出将仅限于选择预设的声音，并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多详细信息。

借助 GPT-4o，我们跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型，因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。

根据最新的基准测试结果，GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo的性能水平，同时在多语言、音频和视觉功能方面取得了显著突破。

（图为GPT-4o手写体转录电子版）

GPT-4o作为一款全新的AI模型，为用户带来了诸多新功能：

用户体验全面升级：用户能够体验到GPT-4级别的智能，通过模型和网页获取即时响应，分析数据并创建图表，甚至讨论拍摄的照片。用户还能上传文件以获取摘要、写作或分析帮助，更便捷地利用GPT和GPT商店的功能。GPT-4o的“记忆”功能也为用户构建了更为有帮助的交互体验。

强大的模型优势：GPT-4o作为最新的旗舰模型，不仅保持了GPT-4的智能水平，还在速度上有所提升，同时在文本、语音和视觉方面的能力得到了显著增强。

图像理解与讨论：GPT-4o在理解和讨论用户分享的图像方面表现卓越。用户可以通过拍摄不同语言的菜单与GPT-4o对话，以翻译、了解食物的历史和重要性，并获得推荐。

即将推出的语音模式：GPT-4o的未来改进将支持更自然的实时语音对话和通过实时视频与ChatGPT对话的能力。这一功能将在未来几周内以alpha版本推出，并首先向Plus用户提供早期访问。

详细功能演示请前往：OpenAI GPT-4o震撼登场：实时响应、全能交互的AI新体验、再登新峰！-喜好儿网 OpenAI 刚刚发布了 GPT-4o，这是一种新的人工智能模式，集合了文本、图片、视频、语音的全能模型。能实时响应用户的需求，并通过语音来实时回答你，你可以随时打断它。还具有视觉能力，能识别物体并根据视觉做出快速的响应和回答，具有非常强的逻辑推理能力。它的速度比 GPT4-turbo 快 2 倍，价格便https://heehel.com/aigc/openai-gpt-4o.html

在可用性和用户访问方面，GPT-4o展现了以下特点：

多语言支持：GPT-4o的语言能力在质量和速度上均有所改进，现在ChatGPT支持超过50种语言的注册、登录、用户设置等。

用户层次：GPT-4o目前正逐步向ChatGPT Plus和团队用户推出，企业用户也即将能够使用。同时，ChatGPT Free用户也将逐步获得GPT-4o的功能，但会有一定的使用限制。Plus用户的消息限制是Free用户的5倍，团队和企业用户则有更高的限制。

在增强智能与高级工具的普及方面，OpenAI致力于使先进的AI工具为尽可能多的人提供服务。GPT-4o的推出是实现这一目标的重要步骤之一。

在编码和数据分析能力方面，GPT-4o展现了强大的综合交互能力。它支持多模态输入与输出，可以整合文本、音频和图像输入，并生成相应的输出。这种设计显著提高了与计算机的自然交互能力。

在性能提升与成本效率方面，GPT-4o的音频输入响应时间极快，最低可达232毫秒，平均为320毫秒，与人类在对话中的响应时间相似。在API中，GPT-4o的速度是GPT-4 Turbo的两倍，成本降低了50%，且处理速率限制提高了5倍。

在语音模式的进步方面，GPT-4o通过单一模型端到端训练，处理所有输入和输出。这避免了信息丢失，使模型能直接处理语调、多个说话者或背景噪音等，并能输出笑声、唱歌或表达情感。

为了确保GPT-4o的安全性和可靠性，OpenAI进行了广泛的红队测试，与70多位外部专家合作，涵盖了社会心理学、偏见与公正、误信息等领域。OpenAI将继续发现并缓解新风险，以确保GPT-4o的稳定运行。

GPT-4o的部署和可用性计划是逐步推出的。目前，GPT-4o的文本和图像功能已在ChatGPT中推出。开发者现在也可以通过API访问作为文本和视觉模型的GPT-4o。新的音频和视频能力将在未来几周内向一小部分受信任的合作伙伴推出。

此外，OpenAI还为macOS推出了新的ChatGPT桌面应用程序，旨在无缝集成到用户的电脑操作中。用户可以通过简单的键盘快捷键（Option + Space）立即向ChatGPT提问，并在应用程序中直接进行截图、讨论以及语音和视频对话。

ChatGPT的用户界面也进行了改版，使其更加友好和会话化。用户将看到全新的主屏幕、消息布局等改进。

值得一提的是，GPT-4o之前曾在LMSys竞技场上进行了测试，其中一个版本被称为“im-also-a-good-gpt2-chatbot”。

Sam Altman在博客文章“GPT-4o”中强调了OpenAI的使命，即向用户提供强大而高效的AI工具，并且这些工具基本上是免费提供的，如ChatGPT，没有任何广告干扰。他提到，OpenAI最初的设想是创造AI，并利用它为世界带来种种益处。现在的情况更多的是，OpenAI创造AI后，其他人将使用这些AI创造出让所有人受益的惊人成果。尽管OpenAI是一家商业机构，但其在推动AI技术的普及和应用方面发挥了积极作用。