[240818] OpenAI 推出 SWE-bench Verified | 苹果公司即将推出全新的 NFC 和 SE API

x-cmd

于 2024-08-18 21:49:17 发布

阅读量944

点赞数 9

分类专栏： daily blog 文章标签： openai ai benchmark 测试工具软件工程 llm NFC

本文链接：https://blog.csdn.net/edwinjhlee/article/details/141306002

版权

OpenAI 推出 SWE-bench Verified：更精准评估 AI 软件工程能力

OpenAI 发布了 SWE-bench Verified，这是一个经过人工验证的 SWE-bench 子集，能够更可靠地评估 AI 模型解决现实世界软件问题的能力。

1. 背景介绍

OpenAI 的 Preparedness Framework 致力于开发各种指标来跟踪、评估和预测模型自主行动的能力。
软件工程任务的自动化是模型自主性风险类别中中等风险级别的关键组成部分。
SWE-bench 是一个流行的软件工程评估套件，用于评估大型语言模型 (LLM) 解决从 GitHub 提取的现实世界软件问题的能力。
OpenAI 的测试发现，SWE-bench 中的一些任务可能难以甚至不可能解决，导致 SWE-bench 系统性地低估了模型的自主软件工程能力。

2. SWE-bench 的问题

单元测试过于具体，甚至与问题无关，导致正确方案被拒绝。
问题描述不明确，导致解决方案模棱两可。
开发环境设置困难，影响单元测试结果。

示例：

问题描述：scikit-learn__scikit-learn-14520 中 copy 参数被忽略。

# 问题描述：copy 参数被忽略
Copy param ignored in TfidfVectorizer
I was playi

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

x-cmd

关注关注

9
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

参与评论您还未登录，请先登录后发表或查看评论

博客

[250507] 小米发布首个推理模型 MiMo，70亿参数展现卓越性能

05-07

297

该模型拥有70亿参数，旨在攻克当前预训练模型在推理能力方面的瓶颈，探索如何更有效地激发模型的深层推理潜能。MiMo的推出，标志着小米在人工智能领域，特别是在提升模型数学推理和代码生成能力方面迈出了重要一步。小米已将MiMo全系列模型在HuggingFace平台全面开源，方便广大用户和研究者访问和使用。小米近日正式发布了其首款针对推理（Reasoning）任务而设计的开源大型语言模型——小米表示，MiMo是其新成立的大模型核心团队的初步尝试。这些成绩充分展示了MiMo模型在推理任务上的优越性。

博客

x-cmd install | Tukai - 终端中的打字大师，练就指尖如飞！

05-07

175

你是否梦想过拥有闪电般的打字速度？Tukai，一款基于 Rust 开发的终端触控打字应用，助你轻松实现！告别枯燥的练习，在指尖的律动中提升效率。Tukai，让你在终端中体验指尖飞舞的乐趣，快速提升打字速度和准确性。本软件目前处于开发初期，功能尚未完善。建议您在使用前浏览开发仓库，确认后再行使用。选定软件后，按下回车键将展示一系列操作选项。

博客

[250506] Auto-cpufreq 2.6 版本发布：带来增强的 TUI 监控及多项改进

05-06

297

Auto-cpufreq，一款适用于 Linux 的免费开源自动 CPU 速度与功耗优化器，已发布其最新版本 2.6。该工具旨在根据系统当前的工作负载和电源状态，动态调整 CPU 调节器 (governor) 和频率设置，以平衡功耗、性能和散热管理。更多详细信息，请参阅官方发布。

博客

x-cmd install | Tuistash - Logstash 实时监控，告别图形界面，高效便捷！

05-06

746

Tuistash 是一款专为 Logstash 设计的终端用户界面 (TUI) 工具。它让你无需离开终端，就能实时监控 Logstash 的运行状态，轻松掌握各项关键指标。让你在终端中就能轻松掌控 Logstash 的一切，提高工作效率，降低运维成本。还在为 Logstash 的监控而头疼吗？还在频繁切换图形界面查看数据吗？本软件目前处于开发初期，功能尚未完善。建议您在使用前浏览开发仓库，确认后再行使用。选定软件后，按下回车键将展示一系列操作选项。，一切都将变得简单高效！带来的便捷与高效吧！

博客

x-cmd install | qq - 你的终端数据魔术棒，轻松玩转各种配置格式！

05-06

402

还在为各种配置文件格式头疼吗？JSON、YAML、TOML、XML…每次都要找不同的工具解析、转换，效率低到爆？是一款强大的命令行工具，它就像一个数据格式的“瑞士军刀”，能帮你轻松处理各种配置格式，并像使用。本软件目前处于开发初期，功能尚未完善。建议您在使用前浏览开发仓库，确认后再行使用。就像你的终端数据魔术棒，让数据处理变得简单、高效、有趣！选定软件后，按下回车键将展示一系列操作选项。，一切都将成为过去式！一样查询和转换数据。

博客

[250505] Arch Linux 正式登陆 Linux 的 Windows 子系统

05-06

465

官方 Arch Linux WSL 镜像的发布，是 Arch Linux 社区与 Microsoft 合作的积极成果。Arch Linux 社区与 Microsoft 合作，正式宣布 Arch Linux 现已提供官方的 Windows Subsystem for Linux (WSL) 镜像。此前，Windows 用户若想在 WSL 中使用 Arch Linux，往往需要依赖非官方的社区构建镜像，这些镜像的质量和维护情况可能不稳定。官方镜像的推出，为用户提供了可靠、标准的 Arch Linux 体验。

博客

[250504] Moonshot AI 发布 Kimi-Audio：开源通用音频大模型，驱动多模态 AI 新浪潮

05-06

360

Moonshot AI 近日正式推出了 Kimi-Audio，这是一款开源的音频基础模型。Kimi-Audio 旨在成为一个通用的音频处理框架，在音频理解、生成和对话等多个领域展现出卓越能力。Kimi-Audio 的开源降低了音频 AI 技术的应用门槛，使开发者和研究人员能够更便捷地利用先进的音频处理能力构建创新应用。它采用了新颖的架构，结合了混合音频输入和基于大型语言模型（LLM）的核心。为了促进社区研究和开发，Kimi-Audio 以开源形式发布，提供了代码、预训练和指令微调的模型权重。

博客

[250503] Qwen3 重磅发布：性能比肩顶尖模型，独创“思考模式”，全系列多款模型开源！

05-06

261

Qwen3 的发布是通往通用人工智能（AGI）道路上的重要一步。未来，研发团队计划在模型架构、数据规模、上下文长度、多模态能力以及利用环境反馈进行长周期推理等方面持续优化，致力于从训练“模型”转向训练更强大的“Agent”，为用户的工作和生活带来更有意义的进步。这一新系列模型在性能上取得了显著突破，旨在提供更强大的智能体验。Qwen 团队近日发布了其大型语言模型系列的最新成员——

博客

Devin AI 推出 DeepWiki：免费 AI 工具，自动为 GitHub 代码库生成维基式文档

05-06

286

DeepWiki 有助于解决在面对大型、复杂或文档不完善的代码库时难以快速理解和导航的问题，为需要进行项目学习、代码重构或审计等工作的人员提供了极大的便利。这款工具利用人工智能技术，能够自动为任何 GitHub 代码库生成结构化、类似维基百科风格的文档。简化开发者（以及任何需要理解代码的人员）理解陌生代码库的过程。近期，Devin AI 公司推出了一款名为。

博客

x-cmd install | t-rec：终端录制新体验，轻松制作炫酷教程！

05-06

199

t-rec 是一款强大的终端录制工具，它能将你的终端操作过程完美地记录下来，并生成为 GIF 动画或 MP4 视频。无论你是想分享你的命令行技巧，还是制作生动形象的教程，t-rec 都能帮你轻松实现。还在为录制终端操作而烦恼吗？还在寻找一款轻巧高效的终端录制工具吗？选定软件后，按下回车键将展示一系列操作选项。，一切都将变得简单而有趣！

博客

[250501] 阿里云将于5月7日起提高多个域名的注册和续费价格

05-01

413

阿里云将于5月7日起提高多个域名的注册和续费价格。阿里云宣布自 **2025年5月7日零时** 起，对包括 **.COM, .NET, .TOP, .XYZ, .VIP** 在内的多个域名后缀的注册、续费及转入价格进行调整。

博客

x-cmd install | snowmachine - 节日氛围神器，让你的终端下雪吧！

05-01

241

snowmachine 为你的终端带来一场冬日奇景吧！无论是想营造节日氛围，还是想放松心情，它都能满足你的需求。快来体验这款有趣又实用的终端美化工具吧！这是一个 Python 脚本，能让你的终端屏幕飘起雪花，瞬间变得生动有趣。厌倦了千篇一律的命令行界面？想给你的终端增添一丝趣味和节日气氛吗？选定软件后，按下回车键将展示一系列操作选项。

博客

x-cmd install | git-cc：让你的 Git Commit 优雅又专业，自动生成 Changelog 不再是梦！

04-30

657

你是否渴望通过规范的 Commit Message 自动生成 Changelog，提升开发效率？，让你的 Commit Message 更加规范、清晰、易于理解，提升开发效率，改善团队协作！你是否还在为写出规范的 Git Commit Message 抓耳挠腮？你是否厌倦了团队成员 Commit 风格各异，导致代码审查困难重重？是一款强大的 Git 扩展工具，它能帮助你轻松编写符合。选定软件后，按下回车键将展示一系列操作选项。规范的 Commit Message。

博客

[250430] Kali Linux 存储库密钥丢失导致所有用户无法正常更新 APT

04-30

522

因为 Kali Linux 仓库更换了新的 GPG 签名密钥。旧密钥由于访问权限丢失（**注意：并非泄露或被攻破**）而无法继续使用，因此启用了新的密钥来签署软件包仓库。

博客

x-cmd install | Tewi - 终端里的 Transmission 掌控者，功能全面的 BT 下载管理工具！

04-30

308

想更高效、更便捷地管理你的 Transmission BitTorrent daemon？Tewi，一款基于文本界面的 TUI 工具，让你在终端也能轻松掌控一切！Tewi 是一款专为 Transmission BitTorrent daemon 设计的文本用户界面 (TUI) 工具。它让你无需离开终端，就能管理你的 BT 下载任务，告别繁琐的图形界面操作。Tewi 让你在终端也能轻松掌控 BT 下载，告别图形界面的臃肿与繁琐，享受更高效、更便捷的下载体验！建议您在使用前浏览开发仓库，确认后再行使用。

博客

[250429] 免费！DeepSeek-R1T-Chimera 合并 R1 和 V3，在 OpenRouter 上可用

04-30

196

此次 DeepSeek R1T Chimera 在 OpenRouter 的上线，标志着高性能开源 AI 在性能、效率和可访问性平衡方面取得了新的突破，为 AI 应用的探索提供了更经济、高效的选择。由 TNG Technology Consulting 研发的全新开源 AI 模型。平台，为全球用户和开发者带来了结合强大推理能力与高效率的先进 AI 工具。

博客

x-cmd install | Pocker - Docker 运维利器，告别繁琐命令，拥抱高效管理！

04-30

569

是一款强大的 Docker TUI (文本用户界面) 工具，旨在简化你的 Docker 运维工作，让你在终端中也能轻松掌控一切。让你摆脱繁琐的 Docker 命令，专注于更重要的事情。无论是日常运维、问题排查，还是开发调试，还在为 Docker 的各种命令而头疼吗？还在手动敲击冗长的指令吗？是时候告别低效，拥抱。本软件目前处于开发初期，功能尚未完善。建议您在使用前浏览开发仓库，确认后再行使用。选定软件后，按下回车键将展示一系列操作选项。都能助你一臂之力，提升效率，节省时间。

博客

[250428] Nginx 1.28.0 发布：性能优化、安全增强及新特性

04-28

490

Nginx 此版本汇集了 1.27.x 主线开发周期中的众多改进，建议用户升级以获取最新的功能和修复。此版本基于之前的 1.27.x 主线分支，整合了多项新功能、性能优化和错误修复。Nginx 官方于 4 月 24 日发布了最新的。

博客

x-cmd install | Orbiton：极简至上的终端文本编辑器与轻量级 IDE

04-28

1081

厌倦了臃肿复杂的 IDE？渴望一个轻巧、快速、专注的编码环境？Orbiton，一款极简主义的终端文本编辑器与轻量级 IDE，将带给你前所未有的编码体验。选定软件后，按下回车键将展示一系列操作选项。

博客

x-cmd install | cpufetch - 轻量强大的高颜值 CPU 信息工具，型号/架构/频率一目了然！

04-28

692

cpufetch 是一款命令行 CPU 信息获取工具，它能以简洁美观的方式，在终端中展示你的 CPU 架构信息。是一款简单、美观、实用的 CPU 信息获取工具。无论你是专业人士还是普通用户，都能从中受益。想知道你的电脑 CPU 到底是什么型号？还在用复杂的命令苦苦查询吗？选定软件后，按下回车键将展示一系列操作选项。，让你的 CPU 信息一览无余！，一切都变得简单而优雅！