在过去的几个月,我一直在尝试探索有关编程方面的AI产品。Blackbox AI这个公司吸引了我的注意 。
它同样是一个语言模型,交互界面与ChatGPT类似,但不同的是,他在代码/编程方面有着特殊训练和改进。使得他在过去12个月超越了所有其他的语言模型,在HumanEval测试任务中达到了85.36%的完成度,位列第一。
Benchmark |
BLACKBOX |
OpenAI-GPT4 |
OpenAI-GPT3.5 |
Anthropic-Claude 2 |
X.AI-Grok1 |
Anthropic-Claude 1.3 |
Google-Bard |
Inflection-1 |
---|---|---|---|---|---|---|---|---|
HumanEval (0-shot) |
85.36% |
82% |
72.5% |
71.2% |
63.2% |
56% |
44.5% |
35.4% |
HumanEval: Python code completion task, (Chen et al. 2021), zero-shot evaluated for pa