1号工人-CSDN博客

原创 Claude 的“性格”

“性格”训练是一个开放的研究领域，我们针对它的方法可能会随着时间的推移而发展。它提出了一些复杂的问题，例如人工智能模型是否应该具有独特而连贯的“性格”，还是应该更具可定制性，以及在决定人工智能模型应该和不应该具有哪些“性格”时我们承担什么责任。

2024-07-19 14:39:34 893

原创 DALL·E3 模型介绍（4）----通过更好的图像题注改进图像生成

虽然 DALL-E 3 在提示跟随方面取得了重大进步，但它在物体放置和空间意识方面仍然存在困难。例如，使用“左边”、“下面”、“后面”等词语相当不可靠。这是因为我们的合成题注生成器也存在这个弱点：它在陈述对象位置方面不可靠，这在我们的下游模型中反映出来了。

2024-07-02 21:30:09 196

原创 DALL·E3 模型介绍（3）----通过更好的图像题注改进图像生成

在上一节中，我们使用 GPT-V 评估了 drawbench。我们注意到，对于某些类型的测试，GPT-V 在判断提示跟随方面的表现并不比随机表现更好。尤其是在涉及计算图像中物体数量的任务中，情况尤其如此。为了更好地覆盖drawbench的性能，我们使用上一节中描述的步骤提交了图像和标题以供人工评估。与我们的 GPT-V drawbench评估一样，我们仅比较 DALL-E 3、带有精炼模块的 Stable Diffusion XL 和 DALL-E 2。

2024-06-24 22:36:35 765

原创 DALL·E3 模型介绍（2）----通过更好的图像题注改进图像生成

，通过对高度描述性的生成图像题注进行训练，可以显著提高文本到图像模型的提示跟随能力。现有的文本转图像模型很难理解详细的图像描述，而且经常会忽略文字或混淆提示的含义。我们假设这个问题源于训练数据集中嘈杂且不准确的图像题注。我们通过训练定制的图像题注生成器（image captioner）来解决这个问题，并使用它来重新捕捉训练数据集。

2024-06-17 22:20:52 740

原创 DALL·E3 模型介绍（1）

DALL·E 3 比我们以前的系统能够理解更多的细微差别和细节，让您可以轻松地将您的想法转化为极其精确的图像。现代文本转图像系统往往会忽略文字或描述，迫使用户接受机器的提示来完成。DALL·E 3 代表了我们在生成与您提供的文本完全一致的图像方面的能力的一次飞跃。

2024-06-11 20:51:12 495

原创 Open GPT 模型简单介绍

GPT的模型有GPT-4o，GPT-4 Turbo and GPT-4，GPT-3.5 Turbo，DALL·E，TTS，Whisper，Embeddings，Moderation，GPT base。GPT-4 的表现优于之前的大型语言模型，并且截至 2023 年，优于大多数最先进的系统（通常具有针对基准的训练或手工工程（hand-engineering））。GPT-4 是一个大型多模态模型（接受文本或图像输入并输出文本），由于其更广泛的常识和先进的推理能力，它可以比我们以前的任何模型更准确地解决难题。

2024-06-03 14:00:24 528

原创 GPT4o 基本介绍（下）

根据传统基准测试，GPT-4o 在文本、推理和智能编码方面达到了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。

2024-05-27 21:33:23 606

原创 GPT4o 基本介绍（上）

GPT-4o,我们的新旗舰模型可以通过音频、视觉和文本进行实时推理。GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它可以将文本、音频、图像和视频的任意组合作为输入，并将文本、音频和图像的任意组合作为输出。他可以在最短232毫秒，平均320毫秒的时间，对音频做出响应，这与人类在对话中的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能一致，在非英语文本上的性能得到显着提高，同时 API 的速度也更快，成本降低了 50%。

2024-05-17 14:48:59 1590

原创 GPT-4 基本介绍（下）

我们一直在迭代 GPT-4，从最开始的训练起，我们通过对预训练的数据的选择和过滤、评估和专家的参与、模型安全性改进以及监控和执行，使得GPT-4更加安全，更一致。GPT-4 与以前的模型存在类似的风险，例如生成有害的建议、有错误的代码或不准确的信息。然而，GPT-4 的附加功能导致了新的风险面。为了了解这些风险的程度，我们聘请了来自AI 一致性风险、网络安全、生物风险、安全性和可靠性以及国际安全等领域的 50 多名专家来对模型进行对抗性测试。他们的发现使得我们能在高风险领域使用专业知识去评估模型。

2024-05-15 11:33:39 516

原创 GPT-4 基本介绍（上）

我们创建了 GPT-4，这是 OpenAI 在扩大深度学习的研究中的最新里程碑。GPT-4 是一个大型多模态模型（图像和文本作为输入，文本作为输出），虽然在许多现实场景中能力不如人类，但在各种专业和学术标准上表现出了人类的水平。例如，它通过了模拟律师考试，分数在考生中排名前 10%；相比之下，GPT-3.5 的得分在倒数 10% 左右。我们花了 6 个月的时间，利用对抗性测试项目和 ChatGPT 的经验总结，不断迭代校准 GPT-4。

2024-05-10 20:36:13 904

原创 Open GPT：Sora（物理世界的模拟器）基本介绍

Sora 今天所拥有的能力表明，持续扩展的视频模型是开发现实和数字世界以及生活在里面的物体、动物和人的高性能模拟器的一条有前途的道路。

2024-04-26 19:35:35 736

eng20220426_dant的博客