OpenAI 于北京时间 2024 年 5 月 14 日 1 点举行春季发布会,发布了最新的 GPT-4o 多模态大模型,并宣布 ChatGPT 的免费用户也能使用该模型。
GPT-4o 是 OpenAI 研发的一种大型语言模型,它具有更快的响应速度、更低的成本和更强大的功能。与之前的模型相比,GPT-4o 在视觉和音频理解方面表现出色,能够接受文本、音频和图像的任意组合作为输入,并生成相应的输出。
OpenAI 还展示了 GPT-4o 在实时语音和音频功能方面的安全性,并强调将继续进行迭代,以提供更多的功能。此外,GPT-4o 还可以检测人的情绪,并与代码库进行交互,根据数据分析图表得出结论。
OpenAI 表示,GPT-4o 的语音对话是其跨文本、视觉和音频端到端训练的一个新模型的产物,所有输入和输出都由同一神经网络处理。该模型在英语文本和代码方面的性能与 GPT-4 Turbo 一致,并且在非英语文本方面的性能有了显著提高。
OpenAI 首席技术官米拉·穆拉蒂强调,GPT-4o 向更自然的人机交互迈进了一步,它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。