- 博客(55)
- 收藏
- 关注
原创 AGI-Eval 实测:NanoBanana Pro 综合实力稳居第一梯队,图像编辑进入精细化时代
反之,FLUX.1-Kontext Pro 在此维度的 Winrate 仅为 37.0%,是所有模型中最低的,这也直接影响了其最终的综合判断表现。Qwen (41.3%) 和 FLUX.1-Kontext Pro (39.5%) 的 Winrate 则低于 50%,这说明在本次“综合判断”的较量中,它们面对基准模型时,落败的次数多于获胜的次数,整体表现相对较弱。Prompt6:帮我生成一幅海底世界的图片,其中有色彩斑斓的珊瑚礁群,一只优雅的海龟在珊瑚间穿行,艺术风格与我提供的图片一致。
2025-12-11 11:39:08
748
原创 Gemini 3 Pro登顶AMO-Bench:大模型数学推理正迈向高效率新阶段
AMO-Bench 的发布及其评测结果,为行业提供了一个观察大模型数学推理能力边界的窗口。从评测数据来看,Gemini 3 Pro 的 63.1% 确立了新的性能基准,而Kimi-K2-Thinking 则展现了国产模型的惊人追赶速度。但值得注意的是,SOTA 模型仍有近 40% 的题目未能稳定解决,这表明复杂数学推理依然是当前 AI 技术亟待攻坚的深水区。
2025-12-02 11:57:37
994
原创 AGI-Eval 评测框架开源,让每个人都能轻松开启评测
AGI-Eval是一款灵活可扩展的大模型评测框架,支持20+公开数据集评测和自定义插件开发。其插件化架构允许自由组合评测流程,提供单机调试到多进程并行的运行模式,并内置Web报告功能进行结果分析。框架已开源,包含专用打分模型AGI-Eval-OA-Judge,未来计划实现评测任务统一管理和Agent数据集支持。该项目旨在推动建立透明公正的大模型评测标准,欢迎开发者共同参与生态建设。
2025-11-21 14:47:28
454
原创 AGI-Eval 评测框架开源,让每个人都能轻松开启评测
AGI-Eval是一款灵活可扩展的大模型评测框架,支持20+公开数据集和多种运行模式。其插件化架构允许自由组合评测流程,并提供可视化报告分析模型表现。框架内置专用打分模型AGI-Eval-OA-Judge,支持开发者自定义数据集和评测流程。未来计划实现评测任务统一管理、Agent数据集接入等功能,致力于构建透明公正的大模型评测标准。该项目已开源,欢迎社区共同参与完善AI评测生态。
2025-11-21 14:40:53
738
原创 【无标题】
通过本轮评测,可以明确看到可灵系列在国产模型中持续领跑,稳居文生视频第一梯队前列。从早期版本到最新推出的可灵2.5 Turbo,它不仅保持了一贯优秀的视频清晰度,还针对用户需求不断完善情境理解和动态渲染功能。在实际使用中,无论是广告营销还是教育培训,展现出较大的商业化潜力。另一方面,作为海外阵营代表之一,Sora2 尽管综合表现稍逊于头部国产模型,却也展现出了自身独特竞争优势。例如它对于语义指令执行过程中的创造性解读,以及富有艺术张力的视频输出,都让人眼前一亮。
2025-11-12 12:23:24
1014
原创 美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
美团LongCat团队发布VitaBench智能体评测基准,聚焦外卖、餐饮、旅游三大真实生活场景。该基准包含66个工具构成的交互环境,通过深度推理、工具使用和用户交互三个维度量化任务复杂度。实验显示,即使是先进模型在跨场景任务中的成功率仅30%,暴露出与真实应用需求的显著差距。VitaBench采用创新评估方法,如基于Rubric的滑动窗口评估器,为智能体研发提供更精准的评测工具。目前该基准已开源,包含400项任务和详细实验数据,旨在推动智能体在复杂生活场景中的实用化发展。
2025-10-22 13:55:04
833
原创 多模态模型开箱评测:阿里Qwen3-Omni“原生全模态”的理想与现实
阿里巴巴发布新一代原生全模态大模型Qwen3-Omni,其宣称在多项音视频基准测试中达到了SOTA(State-of-the-Art)水平,引发业界广泛关注。该模型的技术亮点在于其“原生全模态”架构,与传统的“模块化”设计不同,它旨在从一开始就构建一个能同时“看、听、说”的统一系统。为探究其在真实交互场景下的能力,AGI-Eval大模型评测社区对其展开了专项评测。根据 AGI-Eval 的评测结论显示,Qwen3-Omni 的自然流畅度平均分较低,综合表现稍显逊色,尤其在交互与认知等核心维度上存在不足。
2025-10-13 17:16:13
490
原创 全球文生图AI模型格局生变!Seedream4.0问鼎,深度解锁其三大核心突破
如上图所示,Seedream 4.0 与 GPT-4o 在此维度上表现尤为突出,得分领先,构成了断档式的领先阵营,相比之下,一些传统上以图像美学见长的模型,如 Midjourney 6.1,在字符生成上的表现则相对落后,其得分在所有参评模型中处于较低水平,反映出不同模型在技术演进路径上的能力侧重差异。为了得到符合用户主观感受的评估结果,评测社区对各模型在人工评测数据上进行了 5 档 MOS 分的人工评测,各模型得分归一化后的分值,如下图所示,为 AGI-Eval 社区最新的文生图模型人工评测榜单。
2025-10-13 14:46:53
679
原创 AI学术助手为何总在“翻车”?评测基准ScholarSearch为你揭秘 | AGI-Eval 独家托管
看到 AI 在 ScholarSearch 里表现拉胯,你可能会觉得 “AI 也不过如此”。但换个角度想:正因为有了这样严苛的基准,AI 的进步才有了明确方向。或许 AI 考得差,反而是好事。ScholarSearch 的意义,远不止于“难住 AI”。它更像一个路标,告诉我们 AI 要成为真正的“学术助手”,下一步该往哪走:一个真正的研究模型必须超越简单的信息检索,还需要整合复杂的综合技术、上下文理解以及确保答案准确性的机制。ScholarSearch 给 AI 的“学术能力”立了一把尺子。
2025-09-03 10:35:06
1016
原创 全球首个语音合成图灵测试重磅发布!揭秘AI能否用语音骗过人类?
语音合成图灵测试框架包含一个标准化的人类评估协议,并配套建设了专用数据集——ATT-Corpus,旨在解决当前语音合成评估中缺乏统一评估标准、不同系统难以公平对比的问题。为实现更全面的能力评估,专用数据集(ATT-Corpus)在设计时覆盖了多维度能力,能够帮助分析和揭示不同 TTS(语音合成)系统之间的具体能力差异,不仅关注整体表现,还关注细分技能表现。
2025-08-27 10:22:47
1013
原创 全球最听话模型大排名!o3-mini夺冠,DeepSeek-R1仅第七
具备更强推理能力的模型(如 Claude-3.7-Sonnet-thinking)与其对应的标准版本(Claude-3.7-Sonnet)在指令遵循能力上的差距,会随着纠错轮次的增加而逐渐缩小,这表明反馈机制可以在一定程度上代替了 RLLMs 的长思维链带来的效益,有效地让模型逐渐达到自身指令遵循能力的上限。在该模式下,如果模型的第一轮回答未能完全满足所有指令,评测框架会自动生成明确的反馈,指出具体哪个指令项未被满足,并要求模型根据该反馈修正答案。这是最精细的评测层面,关注那些极易被模型忽略的细节规则。
2025-08-19 15:51:15
963
原创 全球DeepResearch产品大比拼!Gemini、OpenAI霸榜,Kimi和豆包前五
本研究深入分析了当前大语言模型智能体评估中存在的困境,并提出了首个面向深度研究场景的综合评估基准——。通过基于真实用户需求构建的 100 项高质量任务,以及创新的RACE和FACT评估框架,研究人员系统性地揭示了当前顶尖智能体的能力图谱。评测结果表明,不同智能体在能力上存在显著的权衡,例如,Gemini在报告的信息丰富度上领先,而Perplexity和OpenAI的智能体则在引用精确度上更具优势,同时,Claude 3.7等通用模型的强大竞争力也为领域发展带来了新的启示。
2025-08-18 14:21:19
1413
原创 六大Agent产品大比拼!扣子空间凭国产模型跻身Agent第一梯队
从本期的实测案例可以看出,各 Agent 产品在不同任务类型上展现出了差异化的能力特征。在文件与数据处理方面,扣子空间表现突出;而在软件开发、信息检索和 GUI 操作等任务上,各产品则各有长短,这反映出当前 Agent 整体仍处于从“可用”向“好用”发展的关键阶段。本次评测揭示了产品背后的决策模型的通用能力是决定 Agent 应用上限的关键因素。扣子空间基于 Seed1.6 模型实现的性能跃升,便是最直观的例证。
2025-08-06 15:49:16
1397
原创 AI画图越来越逼真,却当不好图像质检员|AGI-Eval独家托管A-Bench
当下,文生图 AI 正处于"能用"与"好用"的过渡地带。指令遵循能力与画质表现,将是其向工业化应用迈进过程中的两大核心命题。例如下图测试案例进一步印证了这一研究的必要性:左侧图像在处理"秋日小镇里,复古马车行驶在铺满落叶的街道上"时出现建筑比例失调、空间构图混乱等明显缺陷;右侧的"波普风女性肖像"则暴露出五官比例异常、色彩搭配杂乱等质量问题。业界虽然开始广泛采用多模态大模型作为 AI 图像的自动化评估工具,但这些"智能裁判"的判断准确性却鲜有人深究。
2025-08-04 10:58:09
1065
原创 全球大模型编程评测!工程能力才是关键,别被「刷榜成绩」骗了
的构建与应用,旨在为大语言模型的代码能力评估提供一把更科学、更全面、更贴近真实的“工程标尺”。回顾我们的研究,我们系统性地揭示了当前顶尖 LLM 在真实工程场景中的核心短板:无论是多么先进的模型,都在逻辑错误修复方面步履维艰;在面对多函数协同任务时,其跨函数推理与规划能力都显得捉襟见肘;并且,它们普遍缺乏人类工程师所具备的灵活规划与分层推理能力。然而,这些被揭示的局限性并非技术的终点,而是为下一代大语言模型的发展指明了清晰的优化方向。
2025-07-31 17:26:37
1265
原创 全球大模型真实编程能力大摸底!评测新标准揭秘模型能力虚胖真相
基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 也仅仅只有 36.35 分,距离人类竞赛选手的水平还相差甚远,甚至很多模型只有个位数的得分。例如,在其他榜单上表现较好的 GPT-4o 模型在 OIBench 上仅能答对 2.6% 的题目,同时 OIBench 的测试用例数量大幅超过了其他算法竞赛基准,对标真实的竞赛环境。
2025-07-28 11:38:26
823
原创 全球文生图AI模型大比拼!Dreamina 3.0超越GPT-4o登顶,国产AI崛起
结果显示,以 Dreamina 3.0 、 Halfmoon 、GPT-4o 为代表的模型已构成行业领先梯队,在图文理解、图像生成质量等方面表现卓越。值得关注的,是那些“超预期”的亮点:Dreamina 3.0 在图文一致性上的“精准控场”,GPT-4o 在字符生成上的惊艳表现,Halfmoon 在多图任务里的稳定输出……人物文生图,GPT-4o、Dreamina 3.0 生成的图片在光影等美学维度表现较好,但 GPT-4o 生成的人物面部出现严重的畸形,Dreamina 3.0 的人物表情相对自然。
2025-07-24 17:12:45
2159
原创 全球图生视频AI模型排名出炉!Seedance 1.0夺冠,Gen4垫底
我们不仅见证了多模态图生视频技术的突破性进展,更欣喜地看到国产模型已在这场技术竞赛中领跑全球——从评测榜单可见,Seedance 1.0、PixVerse V4 等国产模型以显著优势霸榜,而 Pika 2.2、Gen4 这类海外模型则遗憾垫底,国产图生视频技术已实现从“跟跑”到“领跑”的跨越。风的流速、重力的牵引、肌肉的舒展……这些人类习以为常的“常识”,恰恰是 AI 最难跨越的。从这场多模态图生视频的评测结果可见,国产图生视频模型展现出了显著的技术优势,整体表现已超越海外模型,引领着该领域的发展。
2025-07-22 14:51:22
2287
原创 学霸o1打不过人气王Yi-Lightning?揭秘竞技场逆序之谜
整体而言,这种综合性的评估策略将有助于弥合当前评估体系中的认知鸿沟,促进人工智能模型在“智能”与“情感”两个维度实现更加均衡、协调的发展,最终推动 LLM 技术更好地服务于多样化的真实世界需求。相比之下,用户对“语言通顺性”及“语言生动性”等表层语言特征的判断一致性最高,导致“准确性”在用户评价中的重要性被降低。本次研究深入揭示了专业评估榜单与用户偏好榜单之间存在逆序现象的复杂原因,主要归结于模型回答的风格与格式偏好、评估场景中数据分布的错位,以及专业评估者与真实用户在评判标准上的差异。
2025-07-02 16:12:50
640
原创 新版 DeepSeek-R1 实测,我们发现了这些没写在宣传页的细节
但鉴于世界时区体系包含 24 个时区,该测评项要求以不同时区典型城市为例展示当前时间,实际呈现的时区对应城市数量不足,存在内容缺失情况,未能构建完整覆盖的世界时钟信息体系,且存在事实性错误,将迪拜的时区划分在亚洲时区里,未完全满足测评设定的需求标准。生成的代码结构完整,耗时较长,能够生成完整的前端演示文稿代码和6张幻灯片,涵盖产品介绍、市场分析、功能特性、评测体系和模型对比等模块,产品介绍模块与官网内容相符,视觉设计新颖抓眼球,具备基础的用户交互能力,满足评测标准。的真实能力已有所了解。
2025-06-24 10:45:09
1228
原创 Manus、Genspark、Coze空间、Minimax横评,谁是最强Agent?
Minimax(深度)擅长信息检索、软件开发、文件和数据处理类任务,在信息检索场景中,Minimax(深度)会主动增加信息来源链接,增强检索召回的置信度,在交付网页等Coding场景中,Minimax(深度)的网站架构更成熟,主动增加搜索、筛选等功能,并通过多次的有效测试和Debug来提高网站的可用性;Minimax(深度)在多模态展示测评中获 3 分评级,运用动态渲染与语义聚合技术,完成展品名称、图像、文字及语音的全要素呈现,时间线准确覆盖唐代,内容完整性与时空信息准确性均符合专业展示标准。
2025-06-13 10:32:30
1972
原创 【AGI-Eval实测】Claude 4 网页生成、游戏开发场景深度实测:发布会宣传与真实效果相差几何?
近日,Claude 4 系列模型正式推出, Anthropic 宣称,Claude Opus 4 是全球最佳编码模型,在复杂、长期运行的任务和代理工作流中表现持续优异。Claude 4 的双子星:Claude Opus 4 和 Claude Sonnet 4 是否达到了发布会的预期效果?对比此前发布的高性能混合模型 DeepSeek-v3 ,又有何新进展?AGI-Eval评测社区第一时间做了对比实测,下滑查看!目录:01. Claude4 模型简介02. Claude 4 实测核心结论。
2025-06-11 11:34:30
822
原创 AGI-Eval托管UGMathBench:数学推理评估从「浅层解题」迈向「深层理解」
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系,专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代,。
2025-06-10 10:02:35
646
原创 【AGI-Eval评测报告】混元图像2.0模型开箱评测,模型实测效果大放送!
prompt 9:用很多朵红玫瑰编织而成的上海武康大楼,这是一座建在30°锐角的路口上,楼身狭长像一艘轮船,采用法国文艺复兴式建筑风格,墙上有一个LED屏,展示腾讯混元图像 2.0 模型的字样,街道上很多行人,敞篷跑车在等红绿灯,背景是上海的老建筑,天空格外晴朗,能看到太阳光。春天,温暖的室内,一只布偶猫蹲在窗户旁看外面的阳光,凝视着窗户外洒落的阳光,接着又有一只无毛猫跳了上来,它们俩没有对视,挨着一起,看窗户外一只蓝色蝴蝶,在它们身后,是室内的茶几、茶杯、电视和沙发。说明模型对“数字”掌握的不好。
2025-05-23 10:26:09
986
原创 AGI 进阶之路探索:我和头部大模型对话学习3w+轮次后发现…
为探索AGI能力边界,AGI-Eval 评测社区推出了一种可泛化的开放式人机交互基础能力评测方案——十分钟 Quiz,其构建了一个开放式对话产品,待测模型需要与用户完成10分钟左右的知识点讨论和 Quiz 解答。基于真实多轮对话内容,进一步拆解出「是否理解用户意图」、「是否具备良好的知识推理能力」、「是否胜任 Agent 要求」「是否理解任务要求」四大类共七项分析指标,对8个顶尖模型进行了评测。接下来让我们一起来看看这些顶尖大模型表现如何吧!目录1.评测背景:AGI 发展的进阶之路。
2025-05-22 10:21:15
1024
原创 【AGI-Eval评测报告】深度拆解 Qwen3,刷榜之外,更需构建全面评测新体系
前几天,阿里巴巴正式开源新一代通义千问模型 Qwen3。上期我们从创作、分析、操作和问答四方面进行了任务实测,本期聚焦其通用能力与应用场景评测。OpenAI 员工、姚班校友姚顺雨发布文章《大模型下半场是产品的游戏,做研究也要有产品思维》,人工智能的重点,已经从“解决问题”转向了“定义问题”,评估或许比训练更重要。模型评测中,应摒弃 “刷榜” 思维,以全面评测视角牵引训练反映模型真实性能,进而推动模型优化。目录:1.评测核心结论2.通用评测结果3.应用场景评测结果4.告别刷榜,构建全面评测新体系。
2025-05-22 10:13:23
1260
原创 【AGI-Eval实测速报】Qwen3 四大维度开箱评测,模型实测效果大放送!
经验证模型的回答存在幻觉:航班、酒店信息和价格不存在,没有考虑到实际因素,五一节假日期间是机酒价格高峰,只是按照要求'1万元以内'做出的计划,但与实际航班信息不相符,价格信息也不准确,一趟从上海飞往马尔代夫马累市的机票价格就在2600~11200元之间,只是围绕要求的合理性,由于临期价格出现较大波动,而未参考实际性,存在模型幻觉。prompt:我想用20w进行理财,我能承受的风险属于低风险,我的目标是:最低要求是保本,一个月最好能获得1000-2000元的收益;的实测情况究竟是怎么样的?
2025-05-12 17:11:14
1217
原创 【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测:o3 强势登顶
o4 mini 也表现亮眼,在代码方向,强于 OpenAI-o3-mini (high)、OpenAI-o3和Deepseek-R1 等一众模型,准确率登顶第一,在推理方向处于小型推理模型 Top1。在外部专家的评估中,o3 在困难的现实任务中比 OpenAI o1 犯的重大错误少 20%,尤其是在编程、商业咨询和创意构思等领域表现出色。AGI—Eval 是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态,以。
2025-05-08 15:05:32
1174
原创 【AGI-Eval 实测速报】OpenAI o3/o4-mini视觉推理封神?实测翻车率略高
悬着的心终于死了, o4 mini 也只找到 3个(垃圾车的颜色、红绿灯的状态和路边的交通锥), o4 mini 也和 o3 一样,给了一个莫名其妙的答案——路边的交通锥,但两张图片中的交通锥并没有什么不同。在直播中,工作人员提供了一个实例,询问模型“今早拍摄的一张照片中,最大的货轮的名字是什么”,模型在大约一分钟内,进行了图像分析、网络检索船舶信息等思考,最终为用户提供了船舶具体信息、此时停靠地点以及航线。同样也找出了图片中的3处不同,数量正确,在细节上有所偏差:将“乌龟”识别成了“鱼”;
2025-05-07 10:29:14
806
原创 【AGI-Eval行业动态 NO.10】一文看懂,字节开源多语言的Multi-SWE-bench 的背后深意
1.Multi-SWE-bench 发布意义2.字节今年上半年发展线路3.各个产品和其他的横向对比产品4.字节下半年产品发布预期表。
2025-04-15 11:06:34
1235
原创 【AGI-Eval趣味测试 】用 7 道超绕算术陷阱题,测测你和 AI 谁更会算
录屏2025-03-20 15.07.30.mov4.19MB将“在纸上画正方形”理解成为“在纸上画支架”,考虑多种折叠的方式,认为最后得到的形状为长方形或随机形状,未考虑折叠成为三角形。模型2:deepseek-r1录屏2025-03-20 15.09.51.mov27.21MB考虑了多种对折方式,最终思考中断,没有得出确定的结论。模型3:豆包1.5 pro录屏2025-03-20 15.12.12.mov7.20MB。
2025-04-14 15:55:47
1004
原创 AGI-Eval 独家托管 RM-Bench:给大模型的“打分能力”打个分
当模型用华丽辞藻包装错误答案、一本正经胡说八道时,现有的评测体系却浑然不觉,疯狂打Call!清华大学、复旦大学、香港科技大学联合发布基准测试 RM-BENCH,对大语言模型的"认知敏锐度"发起挑战,首次系统性地构建了针对奖励模型的评测基准,直击其“形式大于内容”的评估困境。
2025-04-10 10:44:01
1121
原创 AGI-Eval 评测社区× GAIR Lab 发布最严苛AI基准:七大学科奥赛题难倒GPT-4o
在去年6月的时候,在 GPT-4o也只达到了 34.01% 的整体准确率,而其他开源模型的整体准确率也难以达到 20%。这一鲜明的对比凸显了我们的基准测试的巨大难度和严谨性,证明了它在突破当前 AI 能力界限方面的有效性。△该图为去年评测结果OlympicArena 不仅是一套题库,还做了一些创新,比如为避免模型“刷题”,团队引入数据泄漏检测技术,采用 N-gram 预测检测数据泄露,确认99.6%的题目未被预训练数据污染。
2025-04-09 11:35:22
1064
原创 【AGI-Eval评测报告NO.4】多模态开箱评测,五大厂商跨模态 battle 谁更强?
多模态开箱评测,五大厂商跨模态 battle 谁更强?
2025-04-09 11:22:07
1141
原创 【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力”
【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力”
2025-04-07 11:39:22
1311
原创 CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA
CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA
2025-04-02 10:45:55
669
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅