来源:AI前线
整理:华卫、核子可乐
卡耐基梅隆大学的两位研究人员最近发现,压缩信息的过程有望解决复杂的推理任务,且无需在大量示例之上进行预训练。他们的系统仅依靠谜题本身就可以解决某些类型的抽象模式匹配任务,直接挑战了关于机器学习系统要如何获取问题解决能力的传统观念。
“无损信息压缩本身,能否启发智能行为?”,一年级博士生 Issac Liao 和他的导师、卡耐基梅隆大学机器学习系的 Albert Gu 教授提出这样的猜想。他们的研究工作表明,答案很可能是肯定的。为了进行验证,他们开发了 CompressARC 软件,并在 Liao 的个人网站上发表了一篇综述文章,公布了相关结果。
两人在抽象和推理语料库(ARC_AGI)上测试了相关方法,这是机器学习研究员 François Chollet 于 2019 年创建的视觉基准库,用于测试 AI 系统的抽象推理能力。ARC 为系统提供基于网格的谜题,每个谜题对应几个示例以演示基本规则。系统必须从中推断出规则,才能正确解开新示例。
例如,一个 ARC-AGI 谜题显示一个网格,其中浅蓝色的行和列将空间划分为多个框。该任务需要根据颜色的位置确定哪些颜色属于哪个框:黑色代表边角、洋红色代表中央,其余方框则以色彩作为方向区分(红色代表上、蓝色代表下、绿色代表右、黄色代表左)。以下是另外三个 ARC-AGI 示例谜题:
ARC-AGI 基准测试中的三个示例谜题
这些谜题所测试的能力,被部分专家认为决定一般性类人推理(即通用人工智能 AGI)的关键性能,包括理解对象的持久性、目标导向行为、计数与不需要专业知识的基本几何。普通人约能解决 76.2% 的 ARC-AGI 问题,而人类专家的解决率可达到 98.5%。
OpenAI 于去年 12 月宣布 o3 模拟推理模型在 ARC-AGI 基准测试中获得了破纪录的成绩,引发轰动。在受限计算测试中,o3 的得分为 75.7%,而在高计算测试(即思考时间几乎无限)中得分则为 87.5%。OpenAI 表示,这样的结果已经与人类相当。
CompressARC 在 ARC-AGI 训练偏大(用于系统开发的谜题集合)上的准确率为 34.75%,而在评估集(一组未见过的单独谜题,用于测试该方法在新问题上的推广效果)上的准确率为 20%。在消费级 RTX 4070 GPU 上,每个谜题需要约 20 分钟才能解决完毕。相比之下,顶级方法则须使用重型数据中心级设备,研究人员称其将产生“天文数字般的计算量”。
并非典型的 AI 方法
CompressARC 采用的方法与大多数当前 AI 系统完全不同。它并不依赖预训练(即机器学习在处理特定任务前,先从大量数据集中学习的过程),甚至完全不需要外部训练数据。系统仅使用需要解决的特定谜题本身即可实时训练。
研究人员写道,“无需预训练;模型在推理期间可随机初始化并完成训练。无需数据集;模型仅在目标 ARC_AGI 谜题上进行训练并输出单一答案。”
研究人员还提到此方法“无需搜索”,即 AI 问题解决中的另一种常见技术——系统尝试从多种不同的潜在解法中选择出最佳解法。搜索算法的基本原理是系统探索各选项(类似国际象棋程序中的走法评估),而非直接学习解法。CompressARC 回避了这种反复试错的方法,而是完全依靠梯度下降——一种逐步调整网络参数以减少错误的数学技术,类似于靠不断向下走找到通往谷底的路径。
研究人员设计的 CompressARC 架构框图
该系统的核心原理,在于使用压缩(即通过识别模式与规律以找到最有效的信息表达方式)作为智能的底层驱力。CompressARC 寻求的是对谜题的最短描述,以便在解压时准确重现示例与解法。虽然 COmpressARC 借鉴了 Transformer 的部分结构原理,但仍属于专为压缩任务设计的自定义神经网络架构,独立于大语言模型或标准 Transformer 模型。
与典型机器学习方法不同,CompressARC 仅将其神经网络用作解码器。在编码(即将信息转换为压缩格式的过程)期间,系统会微调网络的内部设置与输入数据,逐渐进行细微调整以最大限度减少错误。此过程会创建出压缩度最高的表示,同时正确重现谜题中的已知部分。之后,这些经过优化的参数将转换为压缩表示,以高效格式存存储谜题及其解法。
动图所示,为 CompressARC 解决 ARC-AGI 谜题的多步骤过程。
研究人员解释称,“其中的关键挑战,在于无需答案输入即可获得这种紧凑的表示结果。”该系统本质上将压缩作为一种推理形式。这种方法在没有大型数据集的领域、或者要求以最少示例学习新任务的场景下极具价值。这项研究表明,某些形式的智能可能并不是从记忆大量来自数据集的模式中产生,而是来自以紧凑形式高效表示信息而来。
压缩与智能的关联
压缩与智能之间乍看之下似乎并没有什么关联,但这一点在计算机科学概念中却有着深厚的理论根源,例如柯尔莫哥洛夫复杂度(即能产生指定输出的最短程序)与所罗门诺夫归纳法(一种理论黄金标准,用于预测效果上的最佳压缩算法)。
为了高效压缩信息,系统必须识别模式、找到规律并“理解”数据的底层结构——而这些能力,反映的正是不少专家认定的智能行为,即要想有效压缩特定序列、系统必须能够预测序列接下来会发生什么。于是过去几十年来,不少计算机科学家认为压缩能力就等同于通用智能。基于这些原则,Hutter 奖开出悬赏,鼓励研究人员尝试将 1 GB 文件压缩到最小体积。
2023 年 9 月,DeepMind 曾经发表一篇论文,发现大语言模型在某些情况下的表现要好于专门的压缩算法。在这项研究中,研究人员发现 DeepMind 的 Chinchilla 70B 模型能够将图像块压缩到原始大小的 43.4%(优于 PNG 的 58.5%),将音频样本压缩至仅 16.4%(优于 FLAC 的 30.3%)。
当时的研究结果表明,压缩和智能之间确实存在着深刻关联——即只有真正理解数据中的模式,才能实现更高效的压缩。这也与此次卡耐基梅隆大学的研究发现一致。而不同于 DeepMind 在训练过的模型中展现出压缩能力,Liao 和 Gu 的工作采用自己的方法,证明压缩过程可以从零开始实现智能行为。
这项新研究之所以意义重大,是因为它挑战了 AI 开发领域的主流观点,即 AI 开发往往依赖于大量预训练数据集和具有极高计算成本的模型。尽管各大领先 AI 厂商仍在努力开发基于广泛数据集的更大模型,但 CompressARC 认为智能完全可以基于不同原理逐步实现。
研究人员们总结道,“CompressARC 的智能并非源自预训练、庞大的数据集、详尽的搜索或者大规模计算,而是源自压缩。我们对此前需要大量预训练和数据集的传统思路提出挑战,并提出新的可能性,即量身定制的压缩目标加高效的推理计算可以共同协作,以最少的输入实现深度智能。”
局限性与未来展望
尽管取得了成功,但 Liao 和 GU 的系统仍存在明显的局限性,因此结论可能会面临质疑。虽然它成功解决了涉及颜色分配、填充、裁剪和识别相邻像素等难题,但在计数、远程模式识别、旋转、反射或者模拟代表行为等任务中却表现得举步维艰。这种局限性也凸显出,简单的压缩原理恐怕并不适用于所有领域。
这项研究尚未经过同行评审。尽管在未经预训练的情况下,在未接触过的谜题中实现 20% 的准确率已然令人印象深刻,但这样的成绩仍远低于人类表现和当前顶尖 AI 系统。批评者可能会认为,CompressARC 其实是利用了 ARC 谜题中可能无法推广到其他领域的特定结构模式,进而质疑压缩本身到底是否可以作为通用智能的实现基础。或者说,其仅仅是实现强大推理能力所必需的众多组成要素之一。
但随着 AI 技术的持续快速发展,如果 CompressARC 经得起进一步审查,仍有可能揭示一条可能的替代路径。这条路径也许同样可以实现具备实用性的智能行为,同时避免了当前主流方法提出的严苛资源需求。或者至少,它有望成为解锁机器通用智能中的一项重要组成部分,而这一点目前仍不太清楚。
原文链接:
https://arstechnica.com/ai/2025/03/compression-conjures-apparent-intelligence-in-new-puzzle-solving-ai-approach/
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告
《核聚变,确保 21 世纪美国的主导地位的关键技术》
《世界知识产权组织:2025WIPO 技术趋势报告:交通运输的未来(145 页)》
《世界知识产权组织(WIPO):2024 年世界知识产权指标报告(194 页)》
《联合国环境规划署:2024 年保护地球报告(81 页)》
《联合国工发组织:2024 清洁技术创新能力建设框架研究报告(51 页)》
《凯捷:Applying TechnoVision 2025:未来科技趋势及应用愿景(17 页)》
《谷歌:2025 年 AI Agent 白皮书:AI 智能体时代来临(42 页)》
《富而德律师事务所:2024 年国际仲裁趋势年度回顾报告(41 页)》
《邓白氏:2024 年全球企业破产报告(27 页)》
《LLM 时代小模型的应用潜力与挑战 》(50 页)
《斯坦福 2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告》(英文版 191 页)
《英伟达:2025NVIDIA 自动驾驶安全报告(26 页)》
《微软 MICROSOFT (MSFT) 2024 年影响力摘要报告(23 页)》
《高德地图:2024 年中国主要城市交通分析报告(29 页)》
《德勤 & CAS:2025 锂离子电池回收行业报告 - 面向绿色未来的市场及创新趋势(36 页)》
《ABI Research:2025 生成式人工智能在语义和实时通信中的应用研究报告(20 页)》
《2025 年 3D 打印技术发展趋势、产业链及相关标的分析报告(45 页)》
《生成式基础模型的可信度 —— 指南、评估与展望》(231 页)
《量子信息科学与技术对国家安全的影响》(118 页)
《中国科学技术信息研究所:2024 科技期刊世界影响力指数(WJCI)报告(68 页)》
《思略特(Strategy&):2025 汽车行业的人工智能(AI)机遇研究报告(12 页)》
《赛默飞:2024 年中国生物科技行业调研报告:资本寒冬中生物科技企业的生产之道(18 页)》
《清华大学:2025 年 DeepSeek 与 AI 幻觉报告(38 页)》
《美国企业研究所(AEI):2025 创新未来电力系统研究报告:从愿景迈向行动(71 页)》
《超材料的智能设计研究进展》
《Ember:2030 年全球可再生能源装机容量目标研究报告(29 页)》
《量子信息科学与技术对国家安全的影响》
《英国人工智能安全研究所:2025 年国际人工智能安全报告 - 执行摘要(22 页)》
《世界海事大学:2024 海事数字化与脱碳研究报告:可持续未来(250 页)》
《艾睿铂(AlixPartners):2024 回溯过往锚定未来:大型科技公司如何推进人工智能愿景研究报告(18 页)》
《Wavestone :2025 数据与 AI 雷达:掌握数据与人工智能转型的 10 大挑战研究报告(30 页)》
《CSIS:2024 中美学术的再联结研究报告:在激烈竞争的时代增进相互理解(120 页)》
《MSC:2025 全球国防创新就绪度差距系列报告:突破制约国防创新的六大隐性障碍(第四版)(32 页)》
《2025 年 AI 编程发展前景及国内外 AI 编程应用发展现状分析报告(22 页)》
《中国核电 - 公司深度报告:世界核电看中国 - 250218(22 页)》
《医药生物行业:医疗器械行业全景图发展趋势及投资机会展望 - 250216(28 页)》
《皮尤研究中心:2024 美国社交媒体使用情况研究报告(英文版)(30 页)》
《科睿唯安:2025 基因编辑领域的领先创新者洞察报告 - 改变药物发现和开发范式的八大创新者(47 页)》
《经合组织(OECD):2025 年全球脆弱性报告(218 页)》
《计算机行业年度策略:AI 应用元年看好 Agent、豆包链及推理算力三大主线 - 250218(38 页)》
《国金证券研究所:从理想走向现实,全球人型机器人研究报告》
《深度解读 DeepSeek 原理与效应(附 PPT 下载)》
《兰德公司(RAND):2025 借鉴危机经验构建城市水安全韧性研究报告:五城案例分析(62 页)》
《凯捷(Capgemini):2025 行业创新洞察:电气化飞机推进系统研究报告(27 页)》
《国际能源署(IEA):2025 全球电力市场报告:至 2027 年的分析与预测(200 页)》
《Zenith:2025 年国际消费电子展(CES)趋势报告:AI 对消费科技、消费行为及传媒营销的变革性影响(17 页)》
《RBC 财富管理:全球透视 2025 年展望报告(33 页)》
《美国国防部和国家安全领域的十大新兴技术》(96 页)
《代理型人工智能全面指南》(45 页 ppt)
《麦肯锡 2025 人类工作中的超级代理。赋能人类解锁 AI 的全部潜力》(英文版 47 页)
《仲量联行(JLL):2025 美国制造业的复兴全面分析报告:未来制造业增长及工业需求前瞻(26 页)》
《未来的太空领域:影响美国战略优势的领域》
《Luminate:2024 年年终美国影视行业报告:数据及趋势洞察(40 页)》
《Anthropic:2025 年 AI 经济影响报告:AI 如何融入现代经济的各类实际任务(38 页)》
【ICLR2025】《LLMS 能否识别您的偏好?评估 LLMS 中的个性化偏好遵循能力》
《改进单智能体和多智能体深度强化学习方法》(219 页)
《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考通用人工智能 AGI 的多元路径探索研究报告》(英文版 29 页)
《世界经济论坛 & 麦肯锡:2025 以人才为核心:制造业持续变革的当务之急研究报告(40 页)》
《超越 ChatGPT 的 AI 智能体》(82 页 ppt)
《Harris Poll:2024 年汽车技术预测报告:消费者对先进汽车技术与功能的洞察(14 页)》
【新书】《人工智能智能体的应用》(527 页)
《哥伦比亚大学:超越 Chatgpt 的 AI agent 综述》
《欧盟标准组织 - 体验式网络智能(ENI)- 基于人工智能代理的下一代网络切片研究》
《中国科学院:2024 开放地球引擎(OGE)研究进展与应用报告(55 页)》
《中国工程院:2024 农业机器人现状与展望报告(70 页)》
《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考:通用人工智能 (AGI) 的多元路径探索研究报告(29 页)》
《罗兰贝格:2050 年全球趋势纲要报告之趋势五:技术与创新(2025 年版)(72 页)》
《理特咨询(ADL):2025 解锁聚变能源:驾驭聚变能商业化的机遇与挑战研究报告(20 页)》
《埃森哲:技术展望 2025—AI 自主宣言:可能无限信任惟先 - 摘要(12 页)》
《怡安(AON):2025 年气候和自然灾难洞察报告(109 页)》
《美国安全与新兴技术中心:2025 AI 翻车事故(AI incident):强制性报告制度的关键要素研究报告(32 页)》
《牛津经济研究院 2025 确保英国充分释放量子计算的经济潜力研究报告 》(英文版 64 页)
《欧洲创新委员会(EIC):2024 年科技报告(65 页)》
《大模型基础 完整版》
《国际人工智能安全报告》(300 页)
《怡安(AON):2025 年全球医疗趋势报告(19 页)》
《前瞻:2025 年脑机接口产业蓝皮书 —— 未来将至打造人机交互新范式(57 页)》
《联合国(United Nations):2024 技术与统计报告:从业者投资法指南(67 页)》
《经济学人智库(EIU):2025 全球展望报告:特朗普再次当选美国总统的全球影响(16 页)》
《大规模视觉 - 语言模型的基准、评估、应用与挑战》
《大规模安全:大模型安全的全面综述》
《Emplifi:2024 年 Q4 全球电商行业基准报告 - 社交媒体趋势洞察(37 页)》
《DeepMind:2025 生成式魂灵:预测人工智能来世的益处和风险研究报告(23 页)》
【AI4Science】《利用大型语言模型变革科学:关于人工智能辅助科学发现、实验、内容生成与评估的调研》
《世界银行:2025 极端天气高昂代价:气候变化背景下的马拉维金融韧性构建研究报告(76 页)》
《北京理工大学:2025 年中国能源经济指数研究及展望报告》
《Space Capital:2024 年第四季度太空投资报告(22 页)》
《NetDocuments:2025 年法律科技趋势报告(32 页)》
《CB Insights:2024 年度全球企业风险投资(CVC)状况报告:私募市场交易、投融资数据及分析(130 页)》
《Artlist:2025 年全球内容与创意趋势报告(59 页)》
《IBM 商业价值研究院:2024 投资人工智能伦理和治理必要性研究报告:AI 伦理前线五位高管的真实故事(24 页)》
《世界基准联盟(WBA):2025 塑造未来:对可持续发展目标(SDGs)影响最大的 2000 家公司研究报告(46 页)》
《清华大学:2025 年 DeepSeek 从入门到精通(104 页)》
《麦肯锡:2025 工作场所中的超级代理 (Superagency):赋能人类解锁人工智能的全部潜力(47 页)》
《凯捷(Capgemini):科技愿景 2025:关键新兴科技趋势探索(54 页)》
《硅谷银行(SVB):2025 年上半年全球创新经济展望报告(39 页)》
《BCG:2025 工业运营前沿技术:AI 智能体 (AI Agents) 的崛起白皮书(26 页)》
《DrakeStar:2024 年全球游戏与电竞行业报告(26 页)》
《理特咨询(ADL):2025 人工智能驱动的研究、开发与创新突破的新时代研究报告(80 页)》
《互联网安全中心(CIS):2024 年网络安全冬季报告:回顾与展望(30 页)》
《方舟投资(ARK Invest):Big Ideas 2025 - 年度投研报告(148 页)》
《DeepSeek:2024 年 DeepSeek-V2 模型技术报告:经济、高效的混合专家语言模型(52 页)》
《CB Insights:2024 年度全球风险投资状况回顾报告:私募市场交易、投融资和退出数据及分析(273 页)》
《全国智标委:2025 城市生命线数字化标准体系研究报告(105 页)》
《经合组织(OECD):2024 年全球政府创新趋势报告:促进以人为本的公共服务(46 页)》
《DeepSeek_R1 技术报告》
《摩根斯坦利报告 —DeepSeek 对于科技和更广义经济的含义是什么?》
《李飞飞最新 S1 模型的论文:s1 Simple test-time scaling》
《世界经济论坛 -《全球经济未来:2030 年的生产力》报告》
《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》
《百页大语言模型新书》(209 页 pdf)
《量子技术和网络安全:技术、治理和政策挑战》(107 页)
《大语言模型中的对齐伪造》(137 页)
《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》(美陆军 232 页)
《美国防部 CDAO:人工智能模型的测试与评估》(66 页 slides)
《自动驾驶的世界模型综述》
《Questel2024 深度学习领域专利全景报告》(英文版 34 页)
《深度解析 Palantir》(20250122_204934.pdf)
上下滑动查看更多