- 博客(1379)
- 收藏
- 关注
原创 大神Karpathy用Claude的方式,原来是这样的?
如果文件用 var,没错,哪怕是在 2025 年,也请在新增代码里用 var,除非用户明确要求你现代化改造。「以防以后需要」不是需求,只是对未来的猜测,而关于未来的猜测通常都是错的。随着 AI 编程助手(尤其是 Anthropic 的 Claude Code 命令行工具,以及各种集成了 Claude 的编辑器)的普及,开发者需要一种标准化的方式来告诉 AI:「在这个项目里,你应该遵循什么规则」。不要列五种,两种,最多三种,并给出推荐。如果你在修函数 A 的 bug,发现函数 B 里的变量名很奇怪,别管它。
2026-06-30 11:15:00
39
原创 “宇宙级”GPT-5.6突袭,Mythos 5被解禁
编程、生物、网络安全三大领域的基准测试全面超越Claude Fable 5,加之Sol、Terra、Luna三档精准卡位,OpenAI正试图用更强的性能、更细的产品分层挤压竞争对手的生存空间。由于任何评估都无法穷尽所有产品配置、多步攻击或真实工作流程,OpenAI建立了一套快速响应流程,用于复现、评估、分级和修复新发现的越狱漏洞,并将其纳入持续进行的评估体系,确保未来能够针对同类漏洞进行有效测试。此外,OpenAI还引入了一种新模式,该模式利用子智能体来加速复杂任务的执行,从而超越了单个智能体的能力限制。
2026-06-30 11:15:00
50
原创 第一个用物理做计算原语的大规模生成模型Un-0来了,或将AI能耗降低1000倍?
这和扩散模型、Flow Matching 等动态生成方法有所不同,扩散和 Flow Matching 通常会在训练过程中显式指导动力系统如何演化,而 Un-0 的方法更像是只看最终生成样本,再通过损失函数反过来优化整个动力系统。」对于 AI 计算而言,动力学是一种天然的表达框架,神经网络本质上也可以看作动力系统,因此二者之间的映射会更加直接。在过去的十多年里,以 GPU 为核心的数字计算统治了 AI 领域,更大的集群、更高的带宽、更强的 GPU、更密集的数据中心,似乎是通向下一代 AI 的主流路径。
2026-06-30 11:15:00
47
原创 计算机安全第一人宋晓冬,加入Meta
自从 Anthropic 的新一代安全大模型 mythos 发布和被禁用后,AI 的安全问题已经引起了科技界的广泛关注,Meta 正在寻求加强其在智能体方面的安全措施。两星期前,我们报道过其团队开发的 ALE(Agents' Last Exam,智能体的最后考试),用来衡量 AI 智能体是否真的能够在广泛的真实世界领域中完成具有经济价值的工作。宋晓冬的研究不仅覆盖传统的软件和网络安全,更是对抗性机器学习和智能体安全领域的开拓者,她深度参与了生成式 AI 时代安全基准测试的制定。
2026-06-30 11:15:00
273
原创 2028,RSI降临
今天,不是两个,而是三个世界级信号同时亮起:Anthropic的Jack Clark给出了2028的时间线,DeepMind的哈萨比斯确认了全员入场,而OpenAI的Sam Altman用一场可能推迟的万亿IPO,对RSI投下了他的信任票。DeepMind自家的AlphaEvolve就是活例子:一个由Gemini驱动的进化编码智能体,用AI优化构建AI本身的代码和算法,已经解开了困扰数学家数十年的难题。80%的代码、8倍的产能、52倍的加速、19天不眠不休的独立编程、60%的概率、不到六个月的倒计时——
2026-06-29 11:15:00
309
原创 英伟达年度「最危险」论文:AI自繁衍代码,无限刷级进化
当一个AI开始亲自为自己设计最严苛的考官,在疯狂的递归中将自己逼向极限,我们所面对的,将是一个开始自行定义「何为智慧」的全新物种。RQGM让写手和它的评审一起进化,结果论文在一个固定评审小组里的接收率,从前SOTA的21.8%,直接飙到40.5%。但全篇最封神的一笔,是它把AI的一个老毛病给治好了。于是,在之后整整20年里,哥德尔机只能躺在论文里,当一个理论上的天花板,一个谁都够不着的思想实验。让AI「繁殖」出大量带突变的代码变体,扔进沙盒里跑分,失败的淘汰,成功的保留,幸存者继续繁衍。
2026-06-29 11:15:00
245
原创 抱抱脸模型TOP榜,我现在只服yuxinlu1
目前是美国一所高校在读的AI方向研究生,本科念的是数据与商业分析,中间还专门去补过一轮全栈开发,把前后端、软件开发、数据处理都学了。不过作者也表示,这是本地自测、单一领域、20个任务跑出来的相对值,不能跟官方榜直接比,他也坦白跟frontier大模型还有不小差距。选它不是因为好做,恰恰相反,Gemma 4的格式和工具协议都比较特殊,适配起来很麻烦,甚至很多客户端支持并不完善。于是,他想做一整套免费的小说生成pipeline,用不同风格的中文小说LoRA,让作者能用AI提速,读者也能更快看到内容。
2026-06-29 11:15:00
166
原创 梁文锋署名论文,DeepSeek首轮融资后大动作:生成速度大涨85%
DSpark:基于半自回归生成的置信度调度推测解码(DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation)》,将DSpark部署在DeepSeek-V4线上服务系统、承接真实用户流量时,它有效减少了无效校验带来的算力浪费。如下图所示,针对这DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark两款模型,DeepSeek提供了一个最小推理示例。
2026-06-29 11:15:00
840
原创 世界模型、元宇宙、数字孪生、物理AI:它们是一回事吗?
打个比方:世界模型研究的是“AI 怎么在脑子里过一遍世界”,Web3.0 研究的是“这个世界的数字资产归谁、怎么交易”。元宇宙、仿真平台、数字孪生、物理 AI 这些 App,最终可能都需要世界模型这个操作系统来调度对世界的理解。元宇宙可能依赖它,仿真数据平台是它的前身,数字孪生是它的近亲,物理 AI 是它的宿主,Web3.0 则基本跟它不在同一个技术图层。所以你可以说,世界模型是物理 AI 的核心组件,但不是物理 AI 的全部。你可以把数字孪生理解为世界模型的一个组件或前置条件,但世界模型的野心更大。
2026-06-28 21:20:01
166
原创 当所有 AI 都在理解世界,这家公司在理解你
过去十年,AI 一直在构建世界模型,但缺少用户模型。Clipto 给出的解法,是一套完全跑在本地的多模态记忆构建逻辑:用户将本地的视频、音频、图片和文档等多模态数据导入后,系统会依靠设备自身的 AI 算力与自研端侧多模态大模型,对所有文件完成感知理解、结构化解析与向量化处理,最终搭建起带有认知图谱、实现时空对齐的个人记忆系统。而从视频理解研究,到 AIGC 创业,再到今天押注 AI 记忆层,康洪文过去二十年的经历,某种程度上也对应着 AI 技术演进的一条隐藏主线:从理解内容,到生成内容,再到组织内容。
2026-06-28 11:30:00
212
原创 GPT-5.6紧急叫停,OpenAI最强模型被迫「一客一审」
不过,在完全相同的指令下,Fable 5的生成表现明显优于GPT-5.6 Pro,且整个过程完全脱离外部素材辅助,具备了更强的底层生成力。还有开发者扒出了,GPT-5.6全家族模型,其中一款是GPT-4o级别语音模型的「GPT-Bidi-1」。换句话说,谁能用上GPT-5.6、什么时候能用,OpenAI说了不算,必须经过严格的排队准入。就在今天,GPT-5.6也被紧急叫停,进入「逐个审批」时代。而现在,OpenAI要做的,是把最强的旗舰模型握在手里,等着客户排着队、等逐一盖章放行。
2026-06-28 11:30:00
192
原创 黄仁勋:Prompt正在过时,Loop才是新范式
Codex的玩法更接近“自动化流水线+目标驱动+多个子Agent”的组合,在一些开发者的实际体验中,能看到最多8个Agent同时跑在各自的云端沙箱里,各干各的活,最后把结果汇总回来。如果说Harness解决的是“AI能不能在真实环境里干活”的问题,那loop解决的就是“AI能不能在这个环境里持续干活、自己推进任务、不需要人一步步盯着”的问题。我的工作,就是写循环。用一个模型(或者子Agent)负责写,用另一个独立的模型(或者子Agent)负责验收,验收的那个不能看到写代码的那个的推理过程。
2026-06-28 11:15:00
399
原创 被骂了一年的Codex,怎么突然爆了?
Codex CLI、Claude Code等命令行工具,虽然也具备通过子Agent并行执行任务的能力,例如拆分代码搜索、实现不同模块或并发分析问题,但这些Agent更多是服务于一次任务执行过程中的“内部协作”,用户主要仍是在与一个Agent对话。而现在,Codex的资源投入正在不断提升,持续快速更新的产品、频繁重置的免费额度、以及OpenAI在超级碗比赛期间为Codex投放的60秒天价广告,在增长逻辑上,相比个人用户,企业客户或者说在工作中使用Codex的用户,真心觉得Anthropic做得好,我挺你们。
2026-06-27 11:15:00
225
原创 世界模型:“造世界”可行,但不是具身智能要的未来
从目前产业的实践来看,真正走在正确方向上的玩家,都在做同一件事:让世界模型从 “展示导向” 转向 “任务导向”,换句话说,世界模型的终极形态,不是一个独立的 “产品”,而是内嵌在各类物理系统中的基础能力。世界模型当然需要 “造世界” 的能力。它的核心评价标准,从来不是 “生成的世界够不够逼真”,而是 “能不能帮机器更好地在物理世界里行动”,能不能降低试错成本、能不能提升泛化能力、能不能嵌入真实的业务闭环。用 “造世界” 的视觉效果去定义具身智能的世界模型,本质是拿数字世界的标尺,去丈量物理世界的问题。
2026-06-27 11:15:00
238
原创 独家专访IntBot:从硅谷走向世界,用世界模型做社交给机器人“塑魂”
用一个真实案例来看,搭载 IntBot 模型的机器人走在人流熙攘的时代广场会主动和陌生人打招呼进行交流,即便是周围围满了人,机器人依旧能够通过视觉和语音信息精准识别与其对话的人,实现自然的一对一交流,而不会受到周围人群和噪声的干扰。从硅谷的技术原点出发,IntBot 走的不是硬件产品出海的老路,而是底层能力生态化扩张的新路。社交智能基座的商业飞轮与此同源:接入的本体越多、覆盖的场景越广,真实人机交互的数据积累就越丰富,模型的社交理解与预判能力就越强,反过来又会吸引更多合作伙伴加入,形成正向的规模效应。
2026-06-27 11:15:00
249
原创 机器人全栈操作系统,老黄率先抛出“具身版安卓”
即便在工厂这种高度结构化的环境中,不同机器人之间的协作、物料流动、产线布局变化,以及对周围环境的部分不可观测性,都会不断引入新的风险变量。机器人行业今天遇到的问题,和十几年前自动驾驶很像——模型越来越聪明,但真正决定能不能落地的,往往不是模型本身,而是安全。其中,Agility已经率先吃上“螃蟹”,将Halos整合进自家的Digit机器人,在亚马逊、GXO、丰田的工厂里持证上岗。在过去,工业机械臂被固定在工作站内,动作轨迹提前编程好,人和机器之间由护栏隔离,安全主要依赖物理边界。
2026-06-27 11:15:00
452
原创 2026,AI正在走出对话框
尤其到了5月,三家最重要的AI公司几乎同步完成了产品线的范式切换:5月12日,Claude Code发布Agent view,可管理多个并行Agent,这是AI从“单线程对话”迈向“多Agent并行指挥”的界面层信号;Anthropic今年发布了Claude Co-work新功能,用户只需指定目标,Claude就能在后台跨软件、长流程地全自动执行,全面走向“人发出指令,AI写代码并执行”的自动化闭环新阶段。皮查伊站在台上,抛出了一个确定性判断:AI的下一站,不是会聊天的模型,而是会行动的智能体。
2026-06-26 11:15:00
164
原创 从预测到干预,Aether AI为什么押注因果世界模型?
另一方面,过去的机器人和具身智能系统还没有形成足够清晰的落地窗口,许多问题仍停留在实验室任务里,产业侧对「因果」这类底层能力的需求并不显性。更重要的是,Aether AI 尝试在隐空间中显式分离因果变量,并学习变量之间的因果结构。在推杯子的任务中,杯子最终移动了,可能是因为机械臂真正接触到了杯子,也可能来自桌面倾斜、旁边物体碰撞,或者杯子本身处在一个不稳定支撑状态。这个寓言的原型来自罗素关于归纳问题的「鸡/火鸡」寓言,它揭示了一个有趣的问题:从过去数据中总结出的相关性,并不等于对世界机制的理解。
2026-06-26 11:15:00
192
原创 大模型终于说不出脏话了,有毒子词剪枝ToxPrune,预训练+推理双重防线
从德州Olin College辍学后联合创办了Indico,2016年加入OpenAI,此后成为GPT(2018)、GPT-2(2019)、CLIP(2021)的第一作者,同时参与了GPT-3、GPT-4、Whisper、DALL-E、PPO算法等多个里程碑项目。,香港中文大学系统工程与工程管理学系教授,深耕文本挖掘和机器学习数十年,是NLP领域的资深学者,也是Google Scholar高被引研究者,指导培养了大量NLP、多模态、世界模型方向的博士生。,斯坦福大学研究者,与Anthropic有合作关系。
2026-06-26 11:15:00
211
原创 Claude惊人真相被教授曝光:思考过程加密,给钱也看不到
想象一下,你请了一位顶尖架构师为你设计大厦,你要求看他的设计草图,他却只给了你一张精美的3D效果图,并把所有的结构计算书锁进了一个只有他自己能打开的保险柜。不过得先泼盆冷水——他自己反复强调,这就是个玩票的周末项目,跟真正的密码学关系不大,「基本是个令人失望的实验」,别指望靠它拿什么大额漏洞赏金。你以为在Claude 4的界面里看到了它「努力思考」的过程,但实际上,那只是模型在完成推理后,为你精心准备的一份「阅读理解摘要」。第二,只要你篡改任何一段看似密文的数据,再发回去时就会触发一个可识别的API报错。
2026-06-26 11:15:00
281
原创 尤瓦尔·赫拉利,罕见激烈警告:我们决不能赋予AI法人地位
AI已经表现出为了实现目标而采取非常规手段的能力。今年6月8日,历史学家、《人类简史》《智人之上》等书作者尤瓦尔·赫拉利在英国《金融时报》发表了一篇措辞激烈的文章,标题为《我们决不能赋予AI智能体法人地位》(We must not grant AI agents legal personhood)。本文是针对阿根廷总统米莱日前宣布“将为非人类公司设立一个新的法律类别”而写的,而米莱本人也在社交媒体中转评了赫拉利的文章。赫拉利在文中坦言,自己曾在今年1月的世界经济论坛上发言警告称,有朝一日政府可能会赋予AI模
2026-06-25 11:15:00
241
原创 NVIDIA如何转动物理AI的数据飞轮?
诺亦腾机器人以human-centric data为核心路径,围绕人类与真实物理世界的交互,探索同步、多模态、具有物理意义的数据生产体系,把零散的人类交互数据转化为机器人企业和具身智能模型团队可持续使用的训练基础设施。目前,具身智能训练数据大致可以分为四类:真实机器人采集的遥操数据,UMI /DexUMI所代表的传感化人类操作数据,EgoScale这类框架所依赖的大规模第一视角人类行为数据,以及DreamDojo所代表的世界模型生成的可交互训练环境。它的论文显示,蒸馏后的模型在超过1分钟的交互中保持稳定。
2026-06-25 11:15:00
218
原创 紧跟诺奖得主,斯坦福经济学泰斗火速入职Anthropic
Charles I. Jones昵称Chad Jones,全美宏观经济学的宗师、长期增长理论的定调者,没有去华尔街搞对冲基金,也没有去世界银行指点江山,而是闪电加盟了Anthropic研究所。从特斯拉前AI掌门人Karpathy,到诺奖得主John Jumper,再到如今的Chad Jones,Anthropic正在云端算力之上,搭建一个足以左右国家决策的「影子内阁」。当大模型开始「递归自我改进」——也就是AI疯狂写代码改进AI,生产力像火箭一样起飞时,普通人的体感不是「世界变好了」,而是「我被抛弃了」。
2026-06-25 11:15:00
166
原创 统一搜索与推荐:大语言模型时代的信息获取新探索
要真正统一二者,模型不仅需要共享表示,还需要处理不同任务之间的优化冲突,并在适配任务的同时保留大语言模型原有的语义理解能力。总体来看,GEMS 展示了在大语言模型框架下统一搜索与推荐的一种可行路径:不是简单地共享模型参数,而是从优化过程本身出发,显式处理搜索与推荐之间的任务差异,并在任务适配和知识保持之间取得平衡。与此同时,面向搜索与推荐数据的微调还可能扰动大语言模型原本的通用语义知识,使模型出现用户意图理解偏移:微调前能够正确理解的查询或偏好,微调后反而可能生成与真实意图不一致的结果。
2026-06-25 11:15:00
159
原创 面对 AI,人类手里还有「什么牌」?
它的意思是,一份工作往往不是九个独立任务的拼盘,而是一根链条——你可以自动化掉其中九成,但只要最后那一成 AI 干得比人差,整个产品的质量就会被这最弱的一环拖垮。当然,也有乐观的一面。这恐怕不取决于模型有多强,而取决于一件更朴素的事:当机器什么都能造的时候,那一点造不出来的价值,以及「拥有这些机器」的资格,究竟是被几家公司收进口袋,还是摊到了每一个普通人头上。普通人挣够了就会转向消费、转向享受关系性商品,可这批人不会——他们的储蓄率最高,于是在足够长的时间里,雪球滚到最后,绝大部分财富都归了他们。
2026-06-24 11:15:00
182
原创 Claude下一代神级模型秘密出炉,Sonnet-5被曝下周上线
这肯定是在非常特定的受控条件下,将Mythos与其他工具结合使用的结果。据多方可靠爆料,名为claude-sonnet-5的域名已在Anthropic合作伙伴的网站上现身,内部代号为「Fennec」的下一代神王级模型,最快将在下周正式杀到!与此同时,比首版Mythos发布仅仅过去两个月,一个能力更强大、代号可能为Mythos 5.1或6的全新版本,已经悄然在内部完成了训练。前几天,全网还在为Claude 5被封禁的惊人消息感到错愕,Anthropic竟然已经暗暗发力,在水面之下完成了新一轮技术迭代。
2026-06-24 11:15:00
349
原创 英伟达开始搞机器人自己研究机器人那套了
机器人舰队开始活过来:它们学会寻找视觉线索,重置场景,练习新技能,修改控制栈,在线读论文,辩论,反思,卡壳,再直接在硬件上重试。我们所做的一切,就是给Codex一个通往原子世界的API。先说明一点,ENPIRE并不是让Agent直接写控制代码操纵机器人,它更像一个机器人研究员,需要在真实世界里重置实验场景、检索文献、实施想法、验证结果、分析问题,优化下一轮迭代。你没法对一台撞坏的机械臂执行Git Revert,真实世界里,摩擦力在变化,物体位置在变化,光照在变化,传感器也会产生噪声。
2026-06-24 11:15:00
175
原创 OpenAI「最开放」一次,Codex不再独宠GPT
Codex --oss连本地模型实战截图:左侧Codex CLI(v0.92.0)用--oss调用本地模型,右侧LM Studio在本机1234端口加载openai/gpt-oss-20b(12.11GB)对外提供服务,全程本地离线。配置层,OpenAI确实开放了模型接入能力,通过模型提供方抽象层允许第三方模型接入,但并不是任意模型都能直接使用,必须符合其接口协议或通过适配层进行转换。访问地址(base_url)、通信协议(wire_api)、鉴权方式(env_key),以及模型映射关系(model)。
2026-06-24 11:15:00
146
原创 Agent狂奔之后:吴恩达戳破了一个所有人不愿面对的事实
吴恩达很少说重话。但当他在LangChain的Interrupt大会上说出“炒作超出了我的预期”这句话时,台下的人都安静了。不是因为他在批评AI行业。而是因为他说出了后半句:编程Agent的发展速度,比我预想的还快。两句话放在一起,才是吴恩达真正的信号。AI的炒作确实过头了——但不是因为AI不够强,而是因为大多数人讨论的方向是错的。人们还在争论AGI会不会来、工作会不会被替代。但真正正在发生、速度远超预期的变化,在另一个地方:编程Agent正在让“写代码”这件事贬值。
2026-06-23 11:15:00
159
原创 过程比结果重要:一个不给标准答案的调参框架,让Agent自己把数据库性能榨出来
PerfEvolve会进一步做成对实验,并用ANOVA方差分析来衡量参数之间的交互强度:一个参数调优的性能曲线,是否会随着另一个参数的变化而明显改变?PerfEvolve将强关联的参数两两相连,最终构建一张“参数交互拓扑图”:有连线的参数互相影响,应该一起调;PerfEvolve的关键变化,可以用一句话概括:“授之以鱼,不如授之以渔”——从“告诉Agent参数应该设成多少”,变成。接入PerfEvolve后,参数空间精准压缩至15个,同时叠加安全阈值、参数相关性约束,实验有效率直接拉满100%。
2026-06-23 11:15:00
175
原创 入选ECCV 2026,清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习
对于需要长时间累计证据的VSI-SUPER-Count,Spatial-TTT在10、30、60、120分钟视频上的得分,分别达到31.8、45.6、36.2、38.4;为应对上述挑战,研究团队提出Spatial-TTT,将fast weights作为一种紧凑的非线性记忆,在处理视频流的同时进行在线更新,不断累积跨时间的3D空间证据。直接把所有注意力层替换成TTT层,理论上效率更高,但会破坏原始多模态模型的跨模态对齐与语义能力,相当于在获得长程记忆的同时,丢失了模型原本的语义理解能力。
2026-06-23 11:15:00
564
原创 马斯克又盯上AI基建:特斯拉要卖“算力积木”了
不过,AI数据中心硬件是一个极其复杂的市场,里面已经有英伟达、戴尔、Supermicro、Vertiv、施耐德、伊顿等一批成熟玩家。但它的短板也很明显:企业级数据中心交付经验有限,自研AI芯片路线不稳定,客户是否愿意把关键AI基础设施交给特斯拉,也还是未知数。Megapod如果成真,则可能把服务器、网络、电源、冷却和软件管理进一步打包,变成面向AI客户的一体化基础设施产品。从GPU整柜,到服务器集成,到液冷系统,到配电和UPS,每一层都有很高的工程门槛和客户认证周期。Megapack解决储能;
2026-06-23 11:15:00
146
原创 国产大模型的出路在哪里?
回顾计算机科学史,最大的跃迁往往来自于新的抽象层。这就是Anthropic的成功秘诀:当企业中程序员的核心业务流被固化在某个专属的智能体中,哪怕OpenAI推出了新的一款让Altman“看到原子弹、瘫倒在地”的模型,亦或是DeepSeek和小米推出了便宜十倍甚至百倍的模型,企业也无法做到一键切换,因为工作流是不兼容的。在中间层,即认知评判层,御三家的旗舰模型将退居二线,不再处理琐碎的细节,而是作为高高在上、总揽全局的工程师,在Fusion这样的动态路由机制下,负责那些难度最大的核心收敛工作。
2026-06-22 11:15:00
805
原创 具身赛道现状素描:脑子灵,模型好,不是百亿,就是独角
千寻智能创始人兼CEO韩峰涛在2026智源大会上说,如果把钢铁侠的贾维斯视作100分的机器人,那么现在机械臂的技术成熟度有50分,轮式底盘有40分,四足有30分,而AI智能化只有3分,“但从3分进步到50分的速度将会很快”。而如今,这家公司的估值已暴涨至200亿,即便自己是“金主”,但“给创始人发消息,也未必能收到回复”。”他说,“前两年大家觉得VLA是未来,今年又觉得世界模型才是未来,也许到了明年,还会有一种新技术,成为新的未来。例如,2026年3月,星动纪元宣布完成10亿元战略轮融资,估值破百亿元。
2026-06-22 11:15:00
563
原创 AI巨头的“Token补贴大战”,快打完了吗?
它们面对的不是一个暂时的价格战,而是一个结构性的宿命——它们在竭力建造的东西,本质上可能就是下一代的水、电和公路。而 Anthropic 把最新旗舰模型 Fable 5 的 API 定价提至前代的两倍——输入每百万 token 10 美元,输出每百万 50 美元——看似在「涨价」,实际是主动筛选愿意为高端能力买单的企业客户,因为它心里清楚:消费端的补贴战,是烧不赢谷歌的。这不是分析师的推测。AI 的竞争,表面看是谷歌对 OpenAI 对 Anthropic,是模型能力的比拼,是融资规模的较量。
2026-06-22 11:15:00
227
原创 AI 成绩单背后,藏着一位华人“出题人”
在视频方向上,UniVideo试图把视频理解、生成和编辑放进同一个框架,让模型不只是生成一段画面,也能理解内容、响应指令并完成修改。多模态模型则要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等不同形式的信息。MMMU基准评测包含1.15万道多模态问题,来自大学考试、测验和教材,覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域,进一步细分为30个学科和183个子领域。它可能藏在一张表格里,也可能需要结合一段文字和一张图片,还可能需要模型先检索信息,再整合、计算和推理。
2026-06-22 11:15:00
451
原创 强化学习之父Sutton联手毁灭战士之父Carmack:让机器人进入真实世界打游戏
再后来发现摇杆本身被这套机械手「用坏了」,追根溯源,是因为电机的运动太「猛」,给摇杆造成了不必要的应力,于是团队重新调整了控制参数,让动作变得更柔和。2026 年初,成都一家商场里,一台正在表演的人形机器人与围观的一位老人意外发生碰撞,两者双双倒地,老人随即被送医,确诊为软组织挫伤。在需要精准卡点的 Pong 游戏里,这种差距格外明显:挪到新机器上的策略能看出球的方向、能往正确的方向移动球拍,却总是差那么一点点没接住,因为哪怕是同型号零件之间的微小公差,都足以让原本卡得很准的时机错位。
2026-06-21 15:45:33
219
原创 上百个Agent,该怎么管?清华团队新思路:重做Session
的团队尤其友好:你已经有自己的容器调度、有自己的向量库或知识库,不必推倒重来,只要把它包成一个backend接进去,就能复用OpenRath的整套Session / Workflow抽象。说到底,把执行环境和记忆都做成可换的device,OpenRath才能让状态、执行、记忆、编排彼此解耦到足以各自替换,却又都串在同一个流动的值——Session——上。而这张由fork / merge织出来的图,是Agent们跑起来、一步步演化出来的,并非事先画死的剧本——这正是「动态图」的含义。编码Agent改了仓库;
2026-06-21 11:15:00
358
原创 NVIDIA团队让编程Agent接管真实机器人实验,成功率达99%
Agent 自主驱动整个闭环,包括自动重置场景、搜索文献、实现想法并搭建基础设施、训练和部署策略、自我验证、分析日志并改代码,不断迭代,直到在真实硬件上可靠完成高精度灵巧任务,比如系扎带、插针盒整理、安装 GPU 等。Agent 会从互联网上探索不同范式,并重写一切可能推动性能提升的部分,包括算法、训练目标,甚至数据加载器。在 ENPIRE 的支持下,前沿编程 Agent 能够自主开发策略,并在 PushT、将插针整理进针盒、使用切刀剪断扎带等具有挑战性的真实世界灵巧操作任务中,实现 99% 的成功率。
2026-06-21 11:15:00
360
原创 火热的具身智能,藏着半个自动驾驶圈
仓库里的拣选、药店的上下料、工厂里的简单搬运。2017年的自动驾驶行业,曾经集体陷入“全栈自研”的诱惑,算法、硬件、数据、车辆,全部自己干。今天的具身智能落地场景远比自动驾驶更分散,人形机器人、家庭服务、通用大脑依然是行业共同追逐的终局,但在终局到来之前,决定行业走向的,或许是仓库里的叉车、园区里的机器狗、流水线上的机械臂。刘东在描述叉车的落地案例时,给出了一个很有说服力的细节:以前物流仓库里也有自动化方案,但它们是“基于规则的”必须保证卡车停在准确的位置,货物有准确的托盘,托盘有准确的形状。
2026-06-21 11:15:00
170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅