GPT4o 基本介绍（下）

1号工人

已于 2024-06-17 22:30:41 修改

阅读量606

点赞数 10

文章标签： chatgpt gpt ai 人工智能机器学习

于 2024-05-27 21:33:23 首次发布

本文链接：https://blog.csdn.net/eng20220426_dant/article/details/139248274

版权

能力探索

GPT-4o纪念币设计

输入1：

我创建了一个矢量图形，描绘了 OpenAI 徽标，其下方带有“GPT-4o”一词。徽标的宽度与文本的宽度大致相同。边框周围的边距均匀。徽标和文字彼此靠近放置。部分或线条之间没有中间插画。还是黑色背景。徽标和文字填充方形画布。

输入2：

描绘 OpenAI 徽标的矢量图形，其下方带有“GPT-4o”字样。徽标的宽度与文本的宽度大致相同。边框周围的边距均匀。徽标和文字彼此靠近放置。部分或线条之间没有中间插画。还是黑色背景。它们填满了方形画布。

附件：

输入3：

现在，这是我们为 2023 年发布 GPT-4 制作的纪念币。

附件：

输入4：

此图片展示了我们 GPT-4o 发行纪念币的当前设计。

该硬币以 OpenAI 徽标为中心，在内圈内包含上方文字“GPT-4o”和下方文字“2024”。

外环显示了一系列代表 GPT-4o 全模式功能的符号，包括嘴、耳朵、眼睛、大脑、神经元、数码相机、摄像机、画笔、胶片、八面体、雕刻工具、扬声器、录音机、GPU 和神经网络。

每个元素都经过精心挑选，为整体设计做出独特贡献。硬币上只有一个 GPU。

输出：

照片转换成漫画

输入1：

一名留着中长棕色头发、留着胡须的年轻白人男子表情中性。他戴着眼镜，穿着浅灰色 T 恤。

附件：

输入2：

这是那个人的漫画：

...背景是简单的米色，方形。图像整体基调卡通俏皮。

输出：

输入1：

一位留着及肩黑发的年轻亚洲女性摆出姿势拍照。她穿着绿色高领毛衣，表情中性。她的眉毛修整整齐，涂着淡粉色的口红。背景是一面朴素的白墙。

附件：

输入2：

这是那个女人的漫画：

...背景是简单的紫色，形状为方形。图像整体基调卡通俏皮。

输出：

文字字体转换

输入1：

字母 ABC DEF GHIJ 显示为三行，就像展示字体簿中的字体一样。一种结合了未来主义和复古元素的字体（模压印花字体）。

附件：

输入2：

字母 KLM NOP QRS 显示为三行，就像展示字体簿中的字体一样。一种结合了未来主义和复古元素的字体（模压印花字体）。

附件：

输入3：

字母 TUV WX YZ 显示为三行，就像展示字体簿中的字体一样。一种结合了未来主义和复古元素的字体（模压印花字体）。

附件：

输入4：

字体 3：OpenAI。这是一种超未来主义字体，是人工智能革命的标志

输入5：

字母 ABC DEF GHIJ 显示为三行，显示方式就像展示字体簿中的字体一样。这是一种超未来主义字体，是人工智能革命的标志

输出：

输入6：

字母 KLM NOP QRS 显示为三行，显示方式就像展示字体簿中的字体一样。这是一种超未来主义字体，是人工智能革命的标志

输出：

输出7：

字母 TUV WXY Z 显示为三行，显示方式就像展示字体簿中的字体一样。这是一种超未来主义字体，是人工智能革命的标志

输出：

3D物体合成

输入1：

OpenAI 徽标的逼真 3D 渲染，如下所示（视图 0）

输出：

省略4个步骤。。。

输入6：

OpenAI 徽标的逼真 3D 渲染，如下所示（视图 5）

输出：

从 6 个生成的图像进行 3D 重建

品牌布置 - 杯垫上的徽标

输入1：

这是 OpenAI 徽标。

OpenAI 徽标位于以 OpenAI 字体显示“OpenAI”的文本左侧。文本位于右侧。

附件：

输入2:

这是一个没有品牌的杯垫。

顶部为木质、底部为大理石的杯垫。它位于大理石桌子上。

附件：

输入3：

在这里，我们将 OpenAI 徽标蚀刻到杯垫上。

顶部为木质、底部为大理石的杯垫。 OpenAI 徽标蚀刻在木质部件的中间。大理石部分，刻有OpenAI字体的“OpenAI”字样。

输出：

多行渲染-机器人发短信

输入：

机器人在给朋友发短信（他正在用拇指打字），第一人称视角，机器人看着他手机的短信:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

2. sound update just dropped, and it’s wild. everything’s got a vibe now, every sound’s like a new secret. makes you think, what else am i missing?

文字大、清晰易读。机器人的手在手机键盘上打字。

输出：

有形的诗歌

输入1：

OpenAI Logo

附件：

输入2：

OpenAI 徽标外部形状中的一首有形的诗，由“omni”一词组成。

输出：

输入3：

相同的图像，但深色模式和彩虹文本

输出：

模型评估

根据传统基准测试，GPT-4o 在文本、推理和智能编码方面达到了 GPT-4 Turbo 级别的性能，

同时在多语言、音频和视觉功能上设置了新的高水位线。

文本评估

GPT-4o 在 0-shot COT MMLU（常识问题）上创下了 88.7% 的新高分。

音频 ASR 性能

音频 ASR 性能 - GPT-4o 比 Whisper-v3 显著提高了所有语言的语音识别性能，特别是对于小众语言。

语音翻译性能

语音翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平，并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam 零样本结果

M3Exam - M3Exam 基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。（我们省略了斯瓦希里语和爪哇语的视觉结果，因为这些语言的视觉问题只有 5 个或更少。）

模型安全性和局限性

GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。我们还创建了新的安全系统，为语音输出提供防护。

我们根据我们的准备框架并按照我们的自愿承诺评估了 GPT-4o。我们对网络安全、CBRN、说服力和模型自主性的评估表明，GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。该评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们使用自定义微调和提示测试了模型的pre-safety-mitigation 和post-safety-mitigation 的版本，以更好地激发模型能力。

GPT-4o 还与社会心理学、偏见和公平以及错误信息等领域的 70 多名外部专家进行了广泛的合作，以识别新添加的模式引入或放大的风险。我们利用这些经验来制定安全干预措施，以提高与 GPT-4o 交互的安全性。我们将继续降低发现的新风险。

我们认识到 GPT-4o 的音频模式带来了各种新的风险。今天，我们公开发布通过文本和图像输入以及文本输出的版本。在接下来的几周和几个月里，我们将致力于技术基础设施、后培训的可用性以及发布其他模式所需的必要的安全性。例如，在启动时，音频输出将仅限于选择预设的声音，并将遵守我们现有的安全政策。