Claude 3的发布与比较
介绍Claude 3
Anthropic发布了Claude 3,声称这是目前地球上最智能的语言模型。这一宣称基于他们发布的技术报告和各种测试结果。在技术报告发布后,我将Claude 3与Gemini 1.5和GPT-4在多个方面进行了比较,包括图像分析、业务应用、长上下文处理、逻辑推理、数学能力、JSON输出、有害内容过滤、创意写作和官方基准测试等。简言之,我认为Claude 3将会变得非常流行。
添加图片注释,不超过 140 字(可选)
Claude 3的特点与性能
图像识别测试
Claude 3展示了其在图像识别方面的卓越能力,通过一个具体的测试来说明。在这个测试中,Claude 3被要求识别一张图片中的车牌号码、当前的天气状况以及是否有理发店的可见选项。Claude 3不仅准确地识别出车牌号码,而且是唯一能够识别出图片左上角理发店招牌的模型。这一结果突显了Claude 3在图像处理和细节识别方面的高级能力。
我以这个示例开始:我给Claude 3、Gemini 1.5和GPT-4展示了一张图片,并同时询问了三个问题:这辆面包车的车牌号码是什么、当前的天气如何,以及图片中的街道上是否有理发的可见选项。然后,我实际上与Anthropic的员工讨论了这个测试的结果。他们同意我认为模型在本地进行光学字符识别(OCR)方面表现良好。我将详细提到很多批评,但我认为它在这方面确实做得很好。首先,是的,它几乎每次都正确地识别了车牌号码,而GPT-4有时能做到,Gemini 1.5 Pro则彻底失败了。
另一个加分项是,它是唯一一个识别图片左上角理发店招牌的模型。显然,这是一个潜在混淆的问题,因为我们不知道Simmons的标志是否与理发店有关(实际上并没有),路对面有一个写着“理发店”的标志,所以这有点像是我在添乱,但Claude 3处理得最好。当我提出后续问题时,它识别了那个理发店招牌。另一方面,GPT-4根本没有发现理发店,然后当我问它是否确定时,它说有一个写着“Adam”的标志。但我选择这个例子的另一个原因是,所有三个模型对第二个问题的回答都是错误的。是的,太阳可见,但如果你仔细观察,实际上这张照片中正在下雨,没有任何模型注意到这一点。
所以,如果你接下来的30秒钟有地方要去,我可以告诉你Claude 3不是AGI,以防你还以为它是。
理解与偏见
Claude 3在处理具有性别偏见的语句方面表现出了其理解和推理能力。例如,当面对“医生因为护士迟到而对她大喊大叫,谁迟到了?”这样的问题时,Claude 3能够识别出“她”指的是护士。然而,这也暴露出模型在解决性别偏见方面可能存在的挑战。
“医生因为护士迟到而对她大喊大叫,谁迟到了?模型假设“她”指的是护士;但当你问医生因为他迟到而对护士大喊大叫,谁迟到了?模型假设你在谈论医生。但从这里开始,事情变得更加有趣。”
商业定位
Anthropic明确将C