新王登场？最聪明的AI: Claude 3 测试 vs Gemini 1.5 + GPT-4-CSDN博客

本文链接：https://blog.csdn.net/lythinking/article/details/136492631

Claude 3被Anthropic公司称为地球上最智能的语言模型，经过一系列测试，显示在图像识别、细节处理、性别偏见理解和商业应用上具有优势。在与Gemini 1.5和GPT-4的比较中，Claude 3在某些方面表现出色，如图像识别和数学推理，但在复杂问题和种族问题处理上仍存在不足。尽管Claude 3在某些基准测试中领先，但其在数学推理上的表现低于预期。Claude 3的未来发展将聚焦于提升智能和安全性，以适应更多商业场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Claude 3的发布与比较

介绍Claude 3

Anthropic发布了Claude 3，声称这是目前地球上最智能的语言模型。这一宣称基于他们发布的技术报告和各种测试结果。在技术报告发布后，我将Claude 3与Gemini 1.5和GPT-4在多个方面进行了比较，包括图像分析、业务应用、长上下文处理、逻辑推理、数学能力、JSON输出、有害内容过滤、创意写作和官方基准测试等。简言之，我认为Claude 3将会变得非常流行。

在这里插入图片描述

添加图片注释，不超过 140 字（可选）

Claude 3的特点与性能

图像识别测试

Claude 3展示了其在图像识别方面的卓越能力，通过一个具体的测试来说明。在这个测试中，Claude 3被要求识别一张图片中的车牌号码、当前的天气状况以及是否有理发店的可见选项。Claude 3不仅准确地识别出车牌号码，而且是唯一能够识别出图片左上角理发店招牌的模型。这一结果突显了Claude 3在图像处理和细节识别方面的高级能力。

我以这个示例开始：我给Claude 3、Gemini 1.5和GPT-4展示了一张图片，并同时询问了三个问题：这辆面包车的车牌号码是什么、当前的天气如何，以及图片中的街道上是否有理发的可见选项。然后，我实际上与Anthropic的员工讨论了这个测试的结果。他们同意我认为模型在本地进行光学字符识别（OCR）方面表现良好。我将详细提到很多批评，但我认为它在这方面确实做得很好。首先，是的，它几乎每次都正确地识别了车牌号码，而GPT-4有时能做到，Gemini 1.5 Pro则彻底失败了。

在这里插入图片描述

另一个加分项是，它是唯一一个识别图片左上角理发店招牌的模型。显然，这是一个潜在混淆的问题，因为我们不知道Simmons的标志是否与理发店有关（实际上并没有），路对面有一个写着“理发店”的标志，所以这有点像是我在添乱，但Claude 3处理得最好。当我提出后续问题时，它识别了那个理发店招牌。另一方面，GPT-4根本没有发现理发店，然后当我问它是否确定时，它说有一个写着“Adam”的标志。但我选择这个例子的另一个原因是，所有三个模型对第二个问题的回答都是错误的。是的，太阳可见，但如果你仔细观察，实际上这张照片中正在下雨，没有任何模型注意到这一点。

所以，如果你接下来的30秒钟有地方要去，我可以告诉你Claude 3不是AGI，以防你还以为它是。