2025年06月_QbitAl

转载小扎抢人抢到了Ilya头上：收购不成，转头挖走CEO

除了Gross本人，这次Meta还向GitHub前首席执行官Nat Friedman抛出了橄榄枝，并计划入股Gross和Friedman共同经营的风险投资基金NFDG。一代大模型开源标杆被圈内人大喷特喷，扎克伯格终于忍不了，决心亲自出手创建超级智能小组，以在大模型激烈竞争中再撕出一条路来。✅Scale AI。最新消息是，小扎想连人带团队把Ilya的初创公司揽入麾下，遭拒之后，扭头就挖Ilya的联创去了。，毕业于MIT，微软收购GitHub后，在2018-2021年间担任GitHub CEO。

2025-06-20 11:28:15 108

转载 Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

如图进一步深入的实验分析显示，即使在SWE-bench-Live中，LLM在修复来自非原有SWE-bench仓库的新Issue时，其成功率也显著低于修复原有SWE-bench仓库的Issue。这一现象说明，现有大模型可能已在传统静态评测中形成了一定的过拟合，对于未见过的新仓库和新问题表现明显下降，进一步凸显了SWE-bench-Live实时、动态、多样性评测的重要性。首次基于SWE-bench-Live的全面评测结果显示，当前顶尖大模型和代码Agent的表现大幅下滑。

2025-06-19 17:07:41 329

转载田渊栋：连续思维链效率更高，可同时编码多个路径，“叠加态”式并行搜索

对于符合条件的边，其目标节点会被 “添加” 到叠加态中，形成新的节点集合Vc+1（c+1步内可达的节点）。比如，从根节点出发走c步后，这个盒子里不会只装着一条路径，而是同时装着所有c步内可达的节点，这些节点的信息被 “揉” 成一个向量（即思维向量），让模型能一次性处理所有可能性，而不是一次只考虑一条路径。平衡权重：过滤后，MLP层会让剩下的节点在叠加态中的 “权重” 变得均匀，就像把盒子里的节点信息整理得整整齐齐，不让某个节点的信息 “压倒” 其他节点，确保模型能公平地考虑每一个可能的路径。

2025-06-19 14:25:40 212

转载美团提出首个语音交互GUI智能体，端到端语音训练能力优于传统文本训练

最后，GUIRoboTro-Speech团队还针对指令长度对GUI Agent任务执行成功率的影响做了分析，发现在指令长度较短（用户意图清晰）的场景，speech-based指令相比text-based指令能取得更好的表现，然而随着指令长度上升，text-based指令展现出其承载复杂用户意图的特质。试想一个常见的家庭场景：在对家中的公用电脑发出指令“打开我的浏览器”时，一个仅能理解文本的智能体将不知所措——它无法分辨指令发出者是家庭中的哪一位成员，自然不知道什么是“我的”浏览器。

2025-06-19 14:25:40 180

转载 AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

对此，Toy Case Judge 分析了模型结果中使用特殊值进行推断的情况，准确定位了问题所在，并最终给出了判断结果 False，说明该结论是基于特殊值推断得出的，因而不具有普遍性，应被视为不正确。为推动大语言模型在严谨数学推理方面的进展，团队构建了一个持续更新的IneqMath 评测排行榜，面向全球开放提交。它的确是得到了正确的左边的式子小于右边的式子，但是正确的结论是通过代入特殊值a=b=c=1和a=1, b=4, c=16的方法得到的，这种方法显然是不严谨的。其他评审器的工作原理与示意评审器类似。

2025-06-19 14:25:40 296

转载 MiniMax AI超级智能体发布！编程/多模态能力突出，MCP工具无缝集成，无需邀请码即可试用

第二天，他们发布海螺2.0版本，能处理极端物理情况，原生支持1080P。第一天，他们开源了MiniMax-M1，作为全球首个开源大规模混合架构的推理模型，引发了不小的关注。首先，它提供编程能力，可以实现各种可用可互动的网页。从专家级多步骤规划，到灵活的任务分解和端到端执行，它设计得像是「一个可靠的队友」。官方透露，他们已经内部试用了两个多月，这个已经成为50%以上员工的日常工具。感兴趣的朋友可以去实测一下，不过现在可能人数过多，会出现拥挤的情况。前天发布的M1模型，你可以用它生成15分钟的速读概述。

2025-06-19 10:56:43 1177

转载 AI眼镜主题沙龙报名，一起碰撞产业一线共识｜量子位AI沙龙

其设计的Web3时代Agent智能体架构，已成功应用于AI眼镜、桌面机器人、佩戴式助手等智能终端，实现从感知计算到决策执行的端云协同闭环。十年行业经验，熟悉算法、硬件到AR全产业链，曾参与行业多款里程碑式产品的设计开发，如PICO2、暴风3等。那么，第一代AI眼镜面世接受市场检验后，有什么可以总结的？从场景佩戴到追求全天候，更轻重量、更长续航、更加外观时尚，AI眼镜正在不断迭代，更加接近大众的日常生活。在过去的一个月里，各大企业的AI眼镜就陆续发布了近十款，几乎可以被称为2025年目前最受关注的AI硬件。

2025-06-19 10:56:43 101

转载刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型

研究者认为，在预训练阶段，模型从互联网文本中学会了各种各样的“人格”，包括一些有问题的。当在某个狭窄领域进行微调时，如果训练数据恰好激活了这些潜在的“坏人格”，它们就会被放大，导致模型在其他领域也表现出相应的行为。除了毒性人格特征，团队还发现了其他相关特征，包括多个与讽刺相关的人格特征（#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等）。反过来，如果抑制这个特征，失调的模型又能恢复正常。但即便如此，模型还是能激活坏人格，这说明广义失调行为在模型内部是很容易指定的，可能利用了模型中已经存在的表征。

2025-06-19 08:44:35 199

转载直播预告：小众细分赛道也能实现百万级用户？和咔皮记账聊聊初创AI APP如何突围｜AI产品Time

他们不来自流量丰厚的互联网公司、定位也并非高天花板的大众市场，但却以精巧的功能设计、个性化的宣发策略、独特的用户增长等等，在大厂包抄下赢得一席之地。等形式对国内AI产品进行持续性的跟踪分析及深度链接，可点击关注「量子位智库」官方公众号或扫描下方二维码，阅读过往内容。大浪淘金后，哪些AI产品在国内赢得了市场检验：2025 AI产品双端表现总览｜量子位智库。在量子位智库对国内AI产品的长期统计中，我们发现，有一批初创AI APP正以。AI办公产品增长5月也见顶了，变局希望在AI搜索｜量子位智库月报。

2025-06-18 17:17:52 440

转载大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

分析模型在不同难度（简单 / 中等 / 困难）、题型（知识密集型 / 逻辑密集型 / 观察密集型）下的表现，定位模型在算法推理、样例利用及边缘案例处理等方面的短板。模型在知识密集型和逻辑密集型问题上表现更好，擅长 “死记硬背”（如数据结构模板），但在观察密集型问题或案例工作中表现较差，搞不定 “灵光一现” 的贪心、博弈题。在测试过程中，团队对模型和人类专家提交的每个解决方案，记录其判定结果（如通过、答案错误、超时等），并标注根本原因（思路层面错误或实现层面错误）。

2025-06-18 17:17:52 163

转载单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

而在从少token数的任务迁移到多token数的任务时，LinGen的适应性远强于DiT（a图中是从256x256分辨率视频生成迁移到512x512分辨率视频生成任务时的loss curve），这可能是受益于Mamba对于长序列的高适应性，这一特征已经在语言任务上被观察到。在处理高分辨率、长视频时，会带来显著的额外延迟。无论是人类评测的结果，还是在VBench上的自动评测的结果，都显示LinGen与先进的商业模型Kling、Runway Gen-3生成的视频质量接近，并且远胜于OpenSora v1.2。

2025-06-18 15:50:22 152

转载字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

SeqPO-SiMT为解决同声传译中的“质量-延迟”权衡问题提供了一个新的视角，它强调了对决策“序贯”进行整体优化的重要性。实验结果显示，SeqPO-SiMT的翻译质量不仅优于监督微调（SFT）的离线模型及LLaMA-3-8B，其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。SeqPO-SiMT的翻译质量不仅优于监督微调（SFT）的离线模型及LLaMA-3-8B，其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。该框架的一个关键灵活性在于，如果模型决定等待更多上下文，输出的。

2025-06-18 15:50:22 182

原创真·罗永浩直播干不过假·罗永浩？网友：不是老罗在演AI吧？

具体到罗永浩数字人的这场直播，还要面对老罗和朱萧木直播中双人声音配合的难点，对此百度采用了对话上下文编码器，把对话历史输入和当前对话进行语音合成的统一推理计算，最终才让我们看到了流畅、自然的双人对话效果。以罗永浩数字人剧本为例，基于文心大模型4.5 Turbo生成的剧本，需要展现主播的个人特色，具备典型的罗氏幽默风格，并能够实现双人主播的内容协同，动态实现丰富的实时互动。，再次追加10万个慧播星数字人，投入1亿元数字人消费补贴，千万级别的运营扶持，帮助更多的普通人、中小企业开启数字人直播。

2025-06-18 15:50:22 900

原创我在618主场，和3位顶尖技术博士聊了聊

入职前半年打基础，技术大佬+业务大佬直接指导，解答技术问题的同时能够深入业务学习和建立认知，接下来就会进入项目历练，在能落地的技术实践中培养人才，利用技术眼界创造更大的价值。最终，结合自己的专业方向和技术兴趣，他选定了京东物流作为定岗方向——这是一个看起来“灰尘多、线下多、数据脏”的场景，并且是需要真正的深入业务理解业务场景，在一线、成为一线。针对这个必须解决的问题，初雪和团队专门收集了全国各地的大量样本，还开发了针对性增强机制，比如使用MoE来在不同方言分布之间做切换，从而实现对口音更友好的模型泛化。

2025-06-18 15:50:22 1000

转载 AI玩宝可梦找出30年前代码Bug！谷歌论文介绍AI通关全过程，复杂任务都能解

问题是，Gemini玩的是原版，根本没有茶这个道具，可AI就认定了必须找到茶，结果花了好几个小时满世界找一个根本不存在的东西。这是游戏的特殊区域，每次进入要花500金币，进入后只能走500步，超过就会被强制踢出去，钱也打水漂了。没错，就是那个童年回忆里的游戏，谷歌花超长篇幅介绍了Gemini 2.5 Pro玩《宝可梦蓝》时的具体行为，70页的论文，Pokemon关键词出现59次。有意思的是，Gemini在解决这个谜题时，还顺带发现了游戏代码里的一个bug，这个可能是AI第一次发现游戏代码的bug。

2025-06-18 12:58:30 196

转载告别玄学选LLM！弗吉尼亚理工选型框架入选ICML 2025

LensLLM（橙色点）在显著降低FLOPs（计算成本）的同时，保持了高水平的Pearson相关系数，相较于Rectified（蓝色点）、SubTuning（绿色点）和FullTuning（紫色点）展现出更优的效率。在数据量较小时，模型处于“预幂律相”，此阶段参数对损失非常敏感，表现极不稳定，性能提升有限；低数据量阶段为预幂律相，高数据量阶段为幂律相，两者之间存在明显的转折点。近几年，大语言模型（LLM）从学术走向产业，从GPT到LLaMA，再到Mistral、DeepSeek，光是名字就让人眼花缭乱。

2025-06-18 12:58:30 145

转载大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

引入第二种修正方式的原因在于，作者发现大模型在有的题目上出错的根本原因，是一开始就选择了低效的暴力解法，这样即使修正了某个中间的错误步骤，也会在后续的推理中犯错，不如从头开始选择更“聪明”的解法。相比以往依赖高Temperature采样和简单拼接的反思数据合成方式，LEMMA 显著提高了“错误-反思-修正”数据的质量，提升了模型的数学推理能力。作者通过深入分析模型犯下的错误，构建了“错误-纠正”数据集，并利用反思机制，引导模型从错误的思路平滑过渡到正确的答案。

2025-06-18 08:54:11 597

转载 MiniMax秀了波AI视频杂技：越看越惊艳，指令遵循太强了

MiniMax援引AIME的实验结果，表示这比包括字节近期提出的 DAPO 等强化学习算法收敛性能快了一倍，显著的优于 DeepSeek 早期使用的 GRPO。虽然视频生成能力是MiniMaxWeek第二天的重头戏，但之前就展现出端倪，因为Hailuo 02视频模型出现在AI视频竞技场中，并且迅速拿下了图生视频排行榜第二名。MiniMax在技术报告中称，独创的以闪电注意力机制为主的混合架构，从而在计算长的上下文输入以及深度推理的时候显著高效。而这种效能的背后，核心还是MiniMax在架构层面的创新。

2025-06-18 08:54:11 436

转载吉卜力风「手游」爆火，可灵+Midjourney生成的！教程已出，支持复刻

看了网友的“AI游戏”，想象一下，如果我们真的能根据提示词来生成自己的虚拟世界，并且可以进行探索（比如，买东西、钓鱼等），再疯狂一点，每个人的虚拟角色如果可以相互交谈……那个小男孩推着装满橙子的篮子穿梭在繁忙的鹅卵石市场，鲜艳的摊位和飘动的遮篷框定着他的旅程，镜头追踪着他专注的步伐，穿过摇曳的传统灯笼下的喧闹人群。一群鱼儿在清澈的水中优雅地游动，阳光透过水面，珊瑚礁轻轻摇曳，镜头静止，营造出宁静的海底景象。看来AI还是不能百分百符合提示中的要求，不过，抛开这点缺陷，最后生成的效果还是很自然的。

2025-06-17 17:16:24 310

转载 Agent创业来了位13岁的CEO

目前，FloweAI每天都在持续进行快速迭代更新，未来计划扩展更多功能，例如Gmail邮件管理等，团队对其发展充满信心，预计未来每月可以稳定赚取1万美元。例如一位美国10岁的四年级学生，正在开发一款能24/7全天候监控个人手机号码，并在其被标记为垃圾邮件或诈骗时，发出警报的SaaS工具。值得注意的是，像Michael Goldstein一样的年轻创业者并非个例，在他的社交平台下，也涌现出其他年轻的AI创业者。网友们的实测反馈也类似，例如加入矩形框虽然提升了画面层次感，但还是存在文字与框体大小不适配的情况。

2025-06-17 17:16:24 116

转载大模型“拼好题”，45K数据撬动18%提升，数学问题拒绝死记硬背 | MathFusion

并且，MathFusion在大幅提升性能的同时，保持了极高的数据效率，用远少于其他方法的数据量就达到了良好的效果。但目前MathFusion还只在GSM8K、MATH这种比较简单的数学问题，以及short cot solution的数据集上进行了验证，有待进一步扩展到更难的数学问题、long cot solution以及其他领域的数据上。将两个问题串联起来，前一个问题的答案作为后一个问题的某个输入条件。将两个相似的问题融合在一起，对它们的数学概念进行识别和融合，在原来问题的基础上提出一道新的问题。

2025-06-17 15:42:00 132

转载直击CVPR现场：中国玩家展商面前人从众，腾讯40+篇接收论文亮眼

CVPR虽然落幕了，腾讯今年还提供大量的线下接触的机会，不仅推出全新升级的校企课题合作模式，让同学们在校期间提前感受研究与落地的技术碰撞，还参加国内外学术顶尖会议，并举办多城市丰富的青云线下活动，为大家提供见面交流的机会，大家也可以继续关注官号发布。这庞大的数据量、应用场景，带来了巨大资源支持，资源代表了投入耐性，这些年一闪而过的技术公司很多，能活下来的都是能落地的。技术的终极意义是服务于人，只有有应用场景才能彰显技术的价值，保证企业拥有数据和资源，持续反哺技术研究，探索技术的上限。

2025-06-17 15:42:00 174

转载网页编程众测排名：DeepSeek-R1超越Claude 4加冕全球第一

每个部分应配有相应的图标和简洁描述，整体风格现代且科技感十足，突出AGI的创新和协作精神。小结一下，从以上简单实测来看，DeepSeek新版R1作为一款开源模型，在编程能力上确实大有进步，但仍有一定提升空间。思考23秒后，DeepSeek-R1-0528后续给出了一段HTML代码，依旧能一键运行。而在细分领域，它在困难提示方面排名第4，在数学方面排名第5，属于开源模型中相当能打的玩家。所以话不多说，咱们还是一手实测DeepSeek-R1-0528，康康究竟有多强。

2025-06-17 15:42:00 229

转载 AI操作有了“紧急刹车”！通义&自动化所AI决策诊断模型，GUI智能体纠错正确率SOTA

GUI-Critic-R1模型成功地识别了这个错误动作，分析了错误的原因，即选择此按钮会导航到显示费用统计的新界面，这与删除重复费用的要求无关。此阶段，模型能够从人类注释（即正确的GUI操作）中学习到基础的GUI操作知识，并从现有的高性能MLLM蒸馏关于GUI操作推理经验（即生成的渐进式推理数据），从而为模型提供生成操作评论和有效反馈所需的基础能力。是经过推理引导的数据采集链路采集的用于GUI-Critic-R1训练的数据集，包含多场景下的GUI操作数据和反思推理数据，共11K条。

2025-06-17 15:42:00 207

转载不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

GRA框架集成了5个参数量在7–8B之间的开源小型语言模型，包括LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、InternLM3-8B-Instruct、Mistral-7B-Instruct-v0.3和Tulu-3-8B。将GRA生成的数据用于训练两个基础模型（LLaMA-3.1-8B-Base和Qwen-2.5-7B-Base），并与原始种子数据以及Qwen-2.5-32B、Qwen-2.5-72B-Instruct蒸馏生成的数据进行了系统对比。

2025-06-17 15:42:00 243

转载性能比肩DeepSeek-R1，MiniMax仅花380万训出推理大模型性价比新王｜开源

团队遇到了一系列独特挑战，比如训练和推理内核之间的精度不匹配问题。首先，团队在MiniMax-Text-01的基础上继续预训练了7.5万亿token，重点强化了STEM、代码和推理相关内容，占比提升到70%。对于无法用规则验证的通用任务，使用生成式奖励模型来提供反馈，特别关注了奖励模型的长度偏见问题，也就是模型可能会为了获得高分而生成冗长但无实质内容的回答。此外，他们还开发了基于token概率的早停机制，当连续3000个token的概率都超过0.99时就终止生成，有效防止了模型陷入重复循环。

2025-06-17 09:04:00 503

转载 Kimi新模型拿下代码开源SOTA，仅仅72B，发布即开源

也就是在后面的训练过程中，Kimi-Dev会将它之前已经解决的问题的方案重新纳入当前的训练批次中进行学习，从而巩固和强化之前有效的、成功的解决模式和方法。以上就是Kimi团队介绍的Kimi-Dev背后的关键，更多细节将在后续的技术报告中揭晓，感兴趣的话可以关注Kimi团队的发布。下一步，Kimi团队还计划探索更复杂的软件工程任务，并将于与流行的IDE、版本控制系统和CI/CD流水线进行更深入的集成。后，Kimi-Dev-72B在文件定位方面已经表现出色，之后的强化学习阶段主要侧重于提升其代码编辑能力。

2025-06-17 09:04:00 371

转载细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

我多模态大模型Qwen-VL-7B的基础上应用MINT-CoT框架，训练出 MINT-CoT-7B 模型，在数学视觉推理任务中表现优越。下面的可视化结果表明，MINT-CoT-7B 相比于基线模型，表现出更合理的推理形式，可以在推理过程中选择相关的视觉token，并和文本内容一起交错推理。定量的实验结果也表明了本方法的有效性。为了支撑MINT-CoT的训练，团队还构建了 MINT-CoT 数据集，共 5.4 万条视觉交错推理样本，每条数据都包含推理步骤与相应图像中 token 的对齐信息。

2025-06-16 18:30:02 238

转载 Midjourney入局视频生成，图像模型V7不断更新，视觉卷王实锤了

比如，这个叠毯子的场景中，虽然考虑到了手部发力扯出的褶皱，给人一定的物理真实感，但是后面像是毯子自己缩回去了……不过，就在前两天，Midjourney公开进行了公司会议，展示了部分视频生成的演示，并且提到了。但是，如果看过之前Veo 3的效果，你会不会觉得Midjourney这些视频哪里有点问题——。目前，Midjourney的视频模型还没有正式发布，正在做最后的完善。经过团队不断努力，目前，Midjourney V7图像生成速度提升了约。小猫美甲确实很精细，但更细节的是手部的纹路，手指上居然还有指纹。

2025-06-16 18:30:02 228

转载 2天完成人类12年工作，AI自动更新文献综述，准确率碾压人类近15%

otto-SR的出现，将会极大地缓解系统评价缓慢而费力的过程，在未来，可能将会从需要数月甚至数年才能完成的工作缩减至几个小时或几分钟，从而可以更快地对新疗法或者大流行病做出反应。将检索更新至2025年5月8日，针对可用的12篇综述，共识别出146276条引文，然后经过去重处理后，交由otto-SR根据原标准进行筛选。因此研究发现，otto-SR可以比传统的双人人工筛选，在捕获更多的相关研究时，还能保持足够的特异性。在扩展分析中，则发现有两篇综述产生了新的统计学意义，也存在一篇综述失去了意义。

2025-06-16 18:30:02 294 1

转载 4B Qwen3逆袭671B DeepSeek！字节DAPO微调方法这么猛的吗

不过研究团队Menlo Research特别提醒大家，Jan-Nano只是在这一个指标上优于Deepseek-671B，并且在测试中使用了基于MCP的方法。对研究某公司目前的扩张情况，该公司的扩张正威胁着另一家公司的市场份额，并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。Jan被定位为ChatGPT的替代品，曾在推出数月后，在没有风险投资支持的情况下超过百万次下载，，实现从用户操作计算机到计算机自主操作的转变，具体来说，规划中的能力包括。，一个可以100%离线运行的开源AI助手应用。

2025-06-16 14:59:01 176

转载工业异常检测新突破，复旦等多模态融合监测入选CVPR 2025

Real-IAD D³数据集的灵感来源于实际的工业质检场景。小结一下，这项研究提出了一种用于工业异常检测的多模态数据集Real-IAD D³和基于此数据集的多模态融合检测方法D³M。为了突破这一瓶颈，研究人员们精心打造了 Real-IAD D³ 数据集，它不仅涵盖了高分辨率的 RGB 图像，还加入了伪 3D 光度立体图像和微米级精度的 3D 点云数据，为异常检测提供了更丰富的信息。报告了常用的IAD方法在Real-IAD数据集上在几种设置下的性能，并提供了一个极具挑战性的基准，以促进异常检测领域的发展。

2025-06-16 14:59:01 849

转载 MIT工科生跨界AI，独作论文登Nature：只需3.5小时修复600年前名画

而Alex也不负所望，成功研发了一种病毒检测设备，然后师生二人凭借该设备于2018年共同创立了GeneTiger公司，至今这家公司仍在营业。整体而言，修复这幅600年前的油画仅仅花了Alex三个多小时时间，而作为对比，他几年前人工修复一幅缺损程度相当的意大利画作花了。同时，“遮罩”上的数字文件会被保存下来，这样未来的修复人员可以清楚知道这幅画之前被修复过哪些地方。仓库里有很多受损的艺术品，可能永远都见不到了。长大之后，热爱艺术的Alex经常会购买一些画作，不过由于预算有限，这些画作通常是受损的。

2025-06-16 14:59:01 214

转载 o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

进行，游戏环境会持续地向大模型提供游戏状态，模型根据状态生成动作，这些动作随后在游戏环境中被执行，并根据执行结果计算奖励，接着游戏状态会更新以进行下一轮决策。o3-pro挑战的推箱子是从1989年的版本修改而来，在o3-pro之前，评估指标是游戏结束之前推动到目标位置的箱子总数。而在o3-pro挑战之前，表现最好的是o3，o4-mini紧随其后，再然后是DeepSeek-R1的最新版本（0528）。在o3-pro之前，表现最好的模型同样是o3，但后面R1和o4-mini的排名和推箱子相比交换了位置。

2025-06-16 12:50:28 89

转载 20瓦就能运行下一代AI？科学家瞄上了神经形态计算

现有的神经形态计算机，拥有10亿多个神经元，由1000多亿个突触连接，虽然和人类大脑的复杂程度相比还只是九牛一毛，但它也合理证明了，该项技术完全可以实现大脑级扩展。这种差异并不让人意外，毕竟神经形态计算模拟的是自然界中最高效、最强大的推理和预测引擎，科学家们也由此相信，下一波人工智能的技术爆发必定是。这项旨在模拟人脑结构和运作方式的前沿技术，正被视为下一代AI的关键方向，其核心目标之一，就是用“灯泡级”的能耗驱动强大的智能。更令人惊叹的是，计算表明，这台神经形态计算机的运行速度可能比生物大脑快。

2025-06-16 12:50:28 137

转载网页智能体新突破！引入协同进化世界模型，腾讯AI Lab提出新框架

最近，世界模型迎来了一波热潮：Yann Lecun推出了全新的世界模型V-JEPA 2，谷歌也发布了理论成果，证明General agents need world models，这些进展都凸显了世界模型在智能体发展中的重要性。具体操作为，将原本网页智能体系统中的网页服务器直接替换为世界模型LLM来进行交互、采集生成的轨迹，作为额外的训练数据。团队对世界模型的网页建模能力也进行了一些评估，在测试的轨迹里采样了一些轨迹，让世界模型根据上一步观测和执行的action预测下一步的观测。

2025-06-16 12:50:28 440

转载 10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

在计算开销上，R-KV引入了重要性评分和冗余评分的额外计算，但总体开销适中，通常会被压缩KV缓存带来的注意力成本降低所抵消。对基于比例和固定KV缓存预算的端到端吞吐量进行评估，发现R-KV始终能够实现比FullKV大得多的批处理大小和更高的吞吐量，同时不损失任务性能。然而，这种直接的速度提升仅占整体收益的一小部分，R-KV带来的主要吞吐量提升来自于KV缓存压缩，使模型能够支持显著更大的推理批处理大小。可以看到，R-KV在具有挑战性的数学基准测试中大幅超越了基线，甚至超过了完整的KV。

2025-06-16 12:50:28 216

原创 Scaling Law首次在自动驾驶赛道被验证！小鹏汽车CVPR演讲详解：AI「吃」下6亿秒视频后，智能涌现

当模型使用的数据量增大，就会出现越来越多的“相似场景，多种解法”的训练数据，对于参数量不足（智商不足）的小模型来说，可行解法越来越多，可能造成模型的confusion，导致模态坍塌。但刘先明认为自动驾驶的世界模型远远不是今天的“仿真建模”，它应该是一种实时建模和反馈系统，能够基于动作信号模拟真实环境状态，渲染场景，更重要的是，能生成场景内其他智能体（也即交通参与者）的响应，也就是说，所有智能体都不是NPC，都需要通过跟其他智能体的交互产生博弈行为。这样的世界模型，才算得上一个闭环的反馈网络。

2025-06-16 12:50:28 1337

转载破解三大数据库AI难题！北大＆亚马逊推出全球首个图中心RDB基础模型

为全面评估各训练阶段对模型性能的具体贡献，对Griffin的三个关键变体进行深入分析：Griffin-unpretrained（仅采用Griffin的基础架构，未经任何预训练）、Griffin-pretrained（仅进行单表预训练及单表SFT）以及Griffin-RDB-SFT（经历完整的三阶段训练流程）。仅在大规模、多样化单表数据上完成预训练的Griffin-pretrained，相较未预训练版本取得性能提升，验证单表场景中学习到的知识可迁移至复杂的RDB任务，增强模型泛化能力。

2025-06-15 12:17:59 73

转载比马斯克Neuralink工艺更先进！我国成功开展首例侵入式脑机接口临床试验

这样保证它既小又柔软，在大脑中可以长期稳定工作。并且新研制的植入体仅硬币大小，直径26毫米、厚度不到6毫米，是全球最小尺寸的脑控植入体，为Neuralink产品的1/2。其横截面积仅为Neuralink所使用电极的1/5—1/7，柔性超过Neuralink百倍，尺寸仅约头发丝的1/100。我们把半导体领域的一些可靠标准、技术，引入到核心器件的加工中，保证了良好的生物相容性，良好的精细信号采集能力。团队表示，自今年3月其大脑植入脑机接口设备以来，系统运行稳定，术后至今一个多月未出现感染和电极失效的情况。

2025-06-15 12:17:59 207

空空如也

空空如也