何恺明团队再发布,VARC:ARC竟是视觉问题,60.44%准确率追平人类,打破LLM 垄断抽象推理赛道!

部署运行你感兴趣的模型镜像

MIT何恺明团队为ARC(抽象推理语料库)基准测试提出全新思路:ARC本质是视觉问题。他们设计VARC框架,将这一通用AI试金石级的抽象推理任务,转化为图像到图像翻译问题,斩获亮眼成果。

1. 【导读】

​​​​

论文基本信息

论文标题:ARC Is a Vision Problem!

作者:Keya Hu、Ali Cy、Linlu Qiu、Xiaoman Delores Ding、Runqian Wang、Yeyin Eva Zhu、Jacob Andreas、Kaiming He

作者机构:MIT

论文来源:MIT何恺明团队

论文链接:https://arxiv.org/abs/2511.14761

项目链接:https://github.com/lillian039/VARC

点击阅读原文,获取更多论文信息

2. 【论文速读】

抽象推理语料库(ARC)旨在推动抽象推理这一人类智能基础领域的研究,现有方法多将其视为语言导向问题,采用大型语言模型(LLMs)或循环推理模型解决,却鲜少从视觉中心视角切入——而ARC中的谜题任务本质具有视觉属性。为此,研究团队将ARC构建为图像到图像翻译问题,引入“画布”表征输入以融入视觉先验,使其能像自然图像一样被处理,进而应用标准视觉架构(如普通视觉Transformer,ViT)实现图像到图像映射。该模型(命名为Vision ARC,VARC)仅基于ARC数据从头训练,并通过测试时训练实现对未见过任务的泛化。在ARC-1基准测试中,VARC准确率达60.4%,显著优于同样从头训练的现有方法,且结果与领先LLMs具有竞争力,同时缩小了与人类平均表现的差距

3.【ARC难题:人类轻松搞定,AI却卡壳?视觉视角成破局新方向】

3.1 研究基石:ARC基准的核心定位与挑战

抽象推理语料库(ARC)是为推动抽象推理研究设计的基准,包含大量谜题式任务,每个任务仅含少量示例且遵循独特变换规则,需模型基于示例预测未见过任务的结果;人类能较好解决各类ARC任务,但当前主流机器学习系统仍难以应对这一挑战。
The ARC benchmark

3.2 现有方案:两大主流思路的局限

  • 语言模型(LLMs)主导:将ARC输入转为文本序列处理,依赖互联网规模预训练获取常识,虽表现有竞争力,但未契合ARC的视觉本质;
  • 循环推理模型:仅基于ARC数据从头训练,通过迭代推理实现效果,虽摆脱大规模预训练依赖,却仍受语言建模思路启发,未突破非视觉框架。

3.3 关键缺口:视觉属性被忽视,新视角待挖掘

ARC谜题虽以视觉形式呈现,但现有研究极少将其视为视觉中心问题;实际上,ARC中的反射、对称、重力等核心概念,本质是视觉与物理属性,人类解决此类任务时,会结合从视觉世界获取的常识进行类比推理,这提示从视觉视角切入可能是突破ARC难题的重要方向。
Examples of unseen tasks solved by VARC.
点击阅读原文,获取更多论文信息

4.【ARC变“看图说话”:视觉视角下的任务定义与建模】

4.1 ARC问题定义:拆解“少样本、多任务”核心结构

ARC基准由数百个少样本(通常2-4个示例)推理任务构成,每个任务 T T T对应独特的变换规则,实现从输入 x x x到输出 y y y的映射( x x x y y y均为最大尺寸30×30的2D网格,每个位置含 C C C种颜色索引之一),具体拆解为以下核心组件:

  • 任务基本单元:每个任务含演示集 D d e m o T = { ( x i , y i ) } i = 1 m D_{demo }^{T}=\{(x_{i}, y_{i})\}_{i=1}^{m} DdemoT={(xi,yi)}i=1m m m m为2-4个演示对, x i x_i xi y i y_i yi均已知)与推理集 D i n f e r T = { ( x i , y i ) } i = 1 n D_{infer }^{T}=\{(x_{i}, y_{i})\}_{i=1}^{n} DinferT={(xi,yi)}i=1n n n n为1-2个推理对);推理时仅提供 D d e m o T D_{demo }^{T} DdemoT x i n f e r ∈ D i n f e r T x_{infer }\in D_{infer }^{T} xinferDinferT,需预测 y i n f e r y_{infer } yinfer
  • 训练集:记为 T t r a i n = { T i } i = 1 k T_{train }=\{T_{i}\}_{i=1}^{k} Ttrain={Ti}i=1k(ARC-1中 k = 400 k=400 k=400),仅用各任务 D d e m o T D_{demo }^{T} DdemoT训练模型, D i n f e r T D_{infer }^{T} DinferT仅用于验证。
  • 测试集:记为 T t e s t = { T i } i = 1 l T_{test }=\{T_{i}\}_{i=1}^{l} Ttest={Ti}i=1l,含训练时未见过的新任务;推理时提供新任务的 D d e m o T D_{demo }^{T} DdemoT,需结合其预测 x i n f e r x_{infer } xinfer的输出,支持通过测试时训练优化模型。
    The ARC problem definition.

4.2 图像到图像翻译:将ARC转化为视觉经典任务

研究将每个ARC任务的推理过程构建为图像到图像翻译问题,采用逐像素分类思路(类似语义分割),具体形式化定义如下:

  • 学习参数为 θ \theta θ的神经网络 f θ f_{\theta} fθ,输入为图像 x i x_{i} xi,并以任务 T T T的可学习嵌入(任务令牌)为条件。
  • 网络输出为网格,每个位置代表一个类别分布,目标函数采用逐像素交叉熵损失:
    L ( θ ) = E T , i [ D ( y i , f θ ( x i ∣ T ) ) ] \mathcal{L}(\theta)=\mathbb{E}_{T, i}\left[\mathcal{D}\left(y_{i}, f_{\theta}\left(x_{i} | T\right)\right)\right] L(θ)=ET,i[D(yi,fθ(xiT))]
    其中 D \mathcal{D} D表示真实值 y i y_{i} yi与网络输出间的逐像素交叉熵损失。

4.3 视觉建模:用“画布”与视觉先验解锁ARC

区别于传统ARC方法的离散令牌处理,研究基于视觉原生设计建模,核心包含以下关键策略:

  • 画布(Canvas)设计:定义固定尺寸(如64×64)的画布,将原始输入变换后置于其上,画布背景设为第 C + 1 C+1 C+1种颜色;该设计支持灵活的几何变换,且当采用2×2补丁大小时,单个补丁可含多种颜色,理论上具有 O ( C 2 × 2 ) O(C^{2×2}) O(C2×2)的指数级基数,能减少过拟合并强化空间先验学习。
    The ViT architecture in VARC.

  • 平移与尺度不变性增强:通过数据增广融入视觉先验:

    1. 尺度增广:随机将原始输入按整数比例 s s s缩放,每个像素复制为 s × s s×s s×s大小(类似最近邻插值);
    2. 平移增广:将缩放后的网格随机置于画布上,确保所有像素可见;增广能促使模型学习对视觉世界几何变换不变的底层映射。
       The raw input undergoes random scale and translation transformations
  • 视觉Transformer(ViT)应用:将画布分割为非重叠补丁(如2×2),经线性嵌入后添加位置嵌入,再通过Transformer块堆叠处理;输出层为线性投影层,实现逐像素分类;同时,先将离散像素索引映射为可学习的连续嵌入,且采用可分离2D位置嵌入(如RoPE),显式保留图像2D结构信息。

  • 备选架构:卷积网络(U-Net):采用用于图像到图像翻译的U-Net分层卷积网络,作为ViT的补充视觉骨干网络,验证经典视觉架构解决ARC问题的有效性。

4.4 两阶段训练:离线预训练+测试时微调

为适配ARC“少样本、多任务”特性,研究采用两阶段训练范式优化模型参数:

  • 离线训练:基于训练集 T t r a i n T_{train } Ttrain中所有任务的 D d e m o T D_{demo }^{T} DdemoT训练模型 f θ f_{\theta} fθ,所有任务共享网络参数,仅各任务拥有专属的任务条件令牌;不使用训练任务的 D i n f e r T D_{infer }^{T} DinferT进行训练,仅用于验证。
  • 测试时训练(TTT):针对测试集单个新任务 T ∈ T t e s t T\in T_{test } TTtest,独立进行微调:初始化新的任务令牌,对 D d e m o T D_{demo }^{T} DdemoT(2-4个演示对)进行数据增广(翻转、旋转、颜色置换等),生成辅助任务;基于增广数据微调模型,适配新任务的变换规则,微调过程快速(单GPU单任务约70秒)。
    Effect of test-time training

4.5 推理策略:多视角融合提升预测精度

训练完成后,通过以下策略优化推理效果:

  • 单视角推理:将 x i n f e r x_{infer } xinfer按特定尺度和平移方式置于画布,经 f θ f_{\theta} fθ预测输出;对原始网格单个位置的多个画布像素预测结果,采用平均池化聚合。
  • 多视角推理:采用510个随机增广视角(不同尺度、平移组合)进行预测,通过多数投票整合结果;因视角推理成本远低于测试时训练,几乎不增加额外开销。
  • Pass@2准确率支持:保留多视角投票中排名前2的输出结果,契合ARC基准的Pass@2评估标准(两个结果中一个正确即判定任务解决)。

5.【数据说话!VARC模型的实验表现与可视化洞察】

5.1 视觉先验的核心贡献

以ViT-18M为基准,叠加关键视觉组件后,ARC-1准确率从26.8%提升至54.5%(累计+27.7个百分点):

  • 2D位置嵌入(尤其RoPE)提升显著,显式建模2D结构必要;
  • 64×64画布+2×2补丁丰富数据空间,强化空间先验;
  • 尺度增广贡献最大(+6.2个百分点),弥补ViT尺度不变性不足。
    Effects of visual priors in VARC

5.2 消融实验关键结论

  • 架构:ViT性能优于同规模U-Net,18M ViT达54.5%(17M U-Net为47.5%);
    Vision backbones

  • 训练:离线训练+单任务独立TTT效果最优,避免遗忘视觉常识;

  • 推理:多视角融合(510个视角)+Pass@2评估,大幅降低单像素错误影响,准确率从35.9%(单视角)升至54.5%。

5.3 系统级对比亮点

  • 超循环模型:18M VARC在ARC-1达54.5%,优于TRM(44.6%)、HRM(40.3%),相对提升超20%;
  • 平LLM:无互联网预训练,却比肩GPT-5(44.0%)等大模型;
  • 近人类水平:集成模型(ViT+U-Net)ARC-1准确率60.4%,与人类平均(60.2%)持平;ARC-2单模型8.3%、集成11.1%,表现稳健。
    System-level comparisonsontheARC-1andARC-2 benchmarks

5.4 可视化核心洞察

  • 注意力分工:像素级关注“源-目标”对应,层间各司其职(局部/方向/任务专属);
    Visualization

  • 任务嵌入聚类:语义相似任务(着色/逻辑运算)在嵌入空间聚集,体现抽象关系学习;
    t-SNE of task embeddings

  • TTT过程:从粗糙预测逐步细化,展现快速适配新任务的能力。

6.【视觉破局ARC:总结与未来展望】

本研究打破现有ARC研究的语言导向思路,首次将其构建为图像到图像翻译问题,通过“画布”设计融入2D位置嵌入、平移/尺度增广等视觉先验,采用ViT或U-Net等视觉架构,结合“离线训练+测试时训练”范式,仅基于ARC数据从头训练的VARC模型,在ARC-1基准上单模型准确率54.5%、集成模型达60.4%(接近人类平均水平),显著优于同训练条件的循环模型且比肩部分LLM,证明视觉视角是解决ARC的有效路径;未来可通过更具表达力的视觉架构、更丰富的视觉先验设计或大规模图像预训练进一步拓展,推动视觉驱动的抽象推理研究,助力构建更接近人类学习抽象概念能力的AI系统。

点击阅读原文,获取更多论文信息

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

考虑柔性负荷的综合能源系统低碳经济优化调度【考虑碳交易机制】(Matlab代码实现)内容概要:本文围绕“考虑柔性负荷的综合能源系统低碳经济优化调度”展开,重点研究在碳交易机制下如实现综合能源系统的低碳化与经济性协同优化。通过构建包含风电、光伏、储能、柔性负荷等多种能源形式的系统模型,结合碳交易成本与能源调度成本,提出优化调度策略,以降低碳排放并提升系统运行经济性。文中采用Matlab进行仿真代码实现,验证了所提模型在衡能源供需、抑可再生能源波动、引导柔性负荷参与调度等方面的有效性,为低碳能源系统的设计与运行提供了技术支撑。; 适合人群:具备一定电力系统、能源系统背景,熟悉Matlab编程,从事能源优化、低碳调度、综合能源系统等相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①研究碳交易机制对综合能源系统调度决策的影响;②实现柔性负荷在削峰填谷、促进可再生能源消纳中的作用;③掌握基于Matlab的能源系统建模与优化求解方法;④为实际综合能源项目提供低碳经济调度方案参考。; 阅读建议:建议读者结合Matlab代码深入理解模型构建与求解过程,重点关注目标函数设计、约束条件设置及碳交易成本的量化方式,可进一步扩展至多能互补、需求响应等场景进行二次开发与仿真验证。
【顶级EI复现】【最新EI论文】低温环境下考虑电池寿命的微电网优化调度(Matlab代码实现)内容概要:本文介绍了名为《【顶级EI复现】【最新EI论文】低温环境下考虑电池寿命的微电网优化调度(Matlab代码实现)》的技术文档,重点围绕在低温环境下,结合电池寿命衰减因素对微电网系统进行优化调度的研究。该研究通过建立数学模型,综合考虑风光储、柴油、燃气等多种能源形式以及电网交互关系,利用Matlab编程实现优化算法(如内点法、多目标粒子群算法等),完成对微电网运行成本、能源效率与电池使用寿命之间的多目标协同优化。文中强调了实际寒潮场景下的V2G调度数据应用,并提供了完整的仿真代码与数据集支持,具有较强的工程复现价值。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的研究生、科研人员及从事微电网、储能系统优化等相关领域的工程技术人员;尤其适合希望复现高水EI论文成果的用户; 使用场景及目标:①用于低温环境下微电网能量管理系统的建模与仿真;②支撑考虑电池老化机制的储能优化调度研究;③服务于学术论文复现、课题项目开发及智能电网优化算法验证; 阅读建议:建议结合提供的网盘资源(包括YALMIP工具包、完整代码与数据集)进行实践操作,重点关注目标函数构建、约束条件设置及多目标优化求解过程,建议在Matlab环境中调试代码以深入理解算法实现细节与系统响应特性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值