- 博客(11696)
- 收藏
- 关注
原创 DeepSeek V4芯模协同背后,国产算力生态开始飞轮加速
更关键的是,CANN开始逐步兼容主流AI生态。开发者每一次正向反馈、每一个优化结果、每一个创新应用,都能通过昇腾和华为的生态快速走向产业界,形成技术、商业、生态的完整闭环。之前,昇腾与不少模型进行过协同探索,但V4是第一次在大规模、高强度、工程化的尺度上,验证了这种“芯模协同”的可行性与效率。开源以后,我们能更充分地学习业界的优秀实践,在此基础上进行适配和优化,也能将一些好的经验应用到自己的项目中。可以说,从“能跑”到“有人长期建设”,从“厂商推动”到“生态自增长”,华为算力生态,正在进入新的阶段——
2026-05-28 21:15:00
415
转载 世界模型接棒语言模型,这家公司全球首创物理AGI“双金字塔”体系,通用机器人进入“家庭时代”
毕竟在现阶段,家庭场景对机器人的真实刚需,是稳当地端水、收拾餐具、抱起脏衣篮、把零食递到孩子手上,而不是在客厅里完成酷炫的跑酷动作。可以说,这支团队完整经历了CV、自动驾驶、具身基模、世界模型等物理AI过去十年的发展历程,并在每个阶段都做出了行业领先的世界级成果。该模型实现了从感知、理解到行动的完整闭环,能够自主识别物体与场景、规划路径,并执行包含抓取、对齐、折叠、归类等多步骤的。他主导了业内首个智能驾驶数据闭环系统的落地,有效提升了数据的处理效率,为智能驾驶技术的发展提供了重要的基础设施支持。
2026-05-28 20:10:41
126
转载 LeCun新证明:世界是高斯的
论文借用这个框架证明,要让转移算子的第一个特征函数恰好是仿射函数(即线性函数加常数),潜变量的分布必须满足一个非常严格的条件——它的对数密度的导数必须是线性的,而满足这个条件的分布恰好只有高斯分布。从理论角度看,对于高斯分布,描述变量如何在时间上演化的转移算子有一组特殊的特征函数,叫做Hermite多项式,它们是高斯分布下函数空间的自然正交基,类似于周期函数里的傅里叶级数。真正有用的表示,应该对应世界的真实自由度,比如物体的位置、速度、颜色这些独立的内在变量,而不是它们被观测过程扭曲之后的混合产物。
2026-05-28 20:10:41
99
转载 玻璃里跑AI!华中科大&上交大科研成果登Nature子刊
更进一步的,光本位科技还将独有的相变材料存算一体光计算方案引入玻璃光计算芯片中,利用相变材料的非易失性,能够避免在玻璃中引入额外的相移器,从而实现计算过程几乎不耗能的三维光子神经网络系统。它既解决了三五族平台器件密度不足的问题,又突破了固定场景的应用限制,相变材料的引入,使得芯片在推理过程中保持极高能效比的同时芯片参数仍然可根据不同模型实时调整,适配性更强。尽管与论文中直接在玻璃中实现三维结构有所差异,但是同样在玻璃平台上提供了三维集成的完整方案,通过单层玻璃芯片堆叠的方式最终实现相同的三维输入效果。
2026-05-28 14:58:20
77
转载 5篇AI生成的数学论文被接收!00后创始人洪乐潼融资14个亿
如果一个 AI 系统能把数学证明交给机器逐步检查,那么同样的“生成、形式化、验证”闭环,也可能被拿去处理其他学科,以及高风险决策场景。她的创业合作伙伴Shubho Sengupta也从Meta辞职,两人从AI与数学推理的交叉可能性出发,决心解决AI的幻觉问题。创始人洪乐潼,2001年出生于广州,本科MIT三年拿下数学与物理双学位,还拿过北美数学本科生的最高荣誉罗德奖学金和摩根奖。2019年,17岁的洪乐潼考入MIT,仅用三年时间便完成了数学与物理双学位的学业,本科期间就发表了9篇学术论文。
2026-05-28 14:58:20
104
转载 AI正在重写软件行业?8岁孩子做操作系统,一人公司拿下千万订单丨百度秒哒朱广翔 @AIGC2026
这些都完成之后,我们再选择分发给谁,比如百度搜索、小红书投流,或者去微信发送到私域社群里,或者说去App store上架,分发流量之后有了用户数据再去回流、去分析、去运营,指导下次迭代,形成下个循环,每个色块就是一个真人。在很多企业里,原来提需求的是业务人员,他们自身没有开发能力,将需求提到研发部门,研发部门又不懂业务人员的痛点,需要反复沟通、调整,但现在业务人员自己就可以开发软件了。我非常荣幸能从事这个赛道,因为在这个过程中、在这一年半的时间里,我不仅看到了产品的变化,还更多地看到了整个时代的变化。
2026-05-28 14:58:20
285
1
转载 清华有了新老师:黄仁勋
既包括科技圈顶流如马斯克、微软CEO纳德拉、Meta扎克伯格等,也不乏金融圈大拿,如摩根大通的杰米·戴蒙、贝莱德的拉里·芬克、花旗的简·弗雷泽。,使命是加强学院与外部各界的联系,提升学院在科研和教学方面的整体水平,帮助学院建设成为世界一流的经济管理学院。后来黄仁勋转学,并且一直学业成绩优异,在高中时连跳两级,16岁毕业,进入。,除了讨论学院的国际化战略和长期发展方向,也会给经管学院的学生做讲座。不过,比起这些头衔,老黄最近最出圈的,可能还是他在夜市的花式插队——可口可乐、西门子、通用汽车、BP、塔塔。
2026-05-28 12:29:47
78
转载 「斯隆奖」得主戴亮全职加盟复旦
曾担任波士顿咨询合伙人,副总裁,中国区首席数据科学家,百度研究院大数据实验室和商业智能实验室的主任,和美国俄勒冈大学计算机和信息科学系正教授(终身教职)。,覆盖面相当宽:从宇宙大尺度结构与演化,到暗物质及其通过引力透镜留下的观测信号,再到天体物理引力波。2024年起到复旦大学物理系工作,现任复旦大学特聘教授、复旦大学天文与天体物理中心主任。获奖者覆盖数学、物理、天文、计算机、经济、生物等领域,成长路线相当恐怖,很多后来成了。继袁峰、季索清之后,复旦的天文版图,再迎一位顶尖天体物理学者。
2026-05-28 12:29:47
90
转载 高分辨率视频生成不再慢半拍:让大模型保留“原味”的同时提速十余倍
为此,SURF训练了一个轻量级Refiner,它从线性上采样后的预览latent出发,学习低分辨率latent到高分辨率latent 的flow mapping,只需少量去噪步骤,就能补足高清纹理。因为这些步骤决定了视频最终“会长成什么样”,等到整体结构、主体关系和运动方向基本稳定后,SURF再将latent 下采样到低分辨率,在保留全局结构的前提下,快速完成预览。原因在于,每个预训练模型都有自己的“舒适区”,通常接近它的训练分辨率,一旦分辨率不匹配,模型原本学到的布局、语义和运动先验,就可能被破坏。
2026-05-28 12:29:47
61
转载 大模型也需要睡觉!让AI打个盹,醒来更聪明
Transformer的核心是注意力机制,但注意力有一个天生的短板就是,上下文越长,算力平方级往上蹿,KV缓存也线性往上涨。,让大模型上下文窗口快满的时候别硬撑了,打个盹把最近的上下文反复咀嚼几遍,压缩进长期权重,清空缓存,醒了再接着干。依靠可学习的局部规则,反复对信息进行提炼整合,逐步更新SSM模块内的快速权重,完成信息的深度压缩与消化。这里的“睡眠时长”,本质上就是信息迭代处理的轮次,轮次越多,代表模型对上下文内容的梳理、打磨次数越充分。
2026-05-27 17:26:14
79
转载 1400亿Agent入场,“流量”这条护城河要塌了
因为人要睡觉,但Agent不会睡觉,所以Agent时代的交易呈现7×24小时不间断、极小额、高频次、多形态的特征,此外,支付金额的最小单位可能低于1分钱,成本大幅下降。如果说担保交易解决了电商早期敢不敢买、敢不敢卖的信任问题,移动支付解决了移动互联网时代能不能随时随地交易的效率问题,那么AI支付面对的,就是Agent时代的新问题。早在今年年初,支付宝联合千问App、淘宝闪购、Rokid、大麦、阿里云百炼等伙伴,正式发布中国首个ACT协议,提供一套智能体跨终端、跨系统的“通用语言”。
2026-05-27 17:26:14
89
转载 7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”
是上海创智学院面向下一代医学AI Agent、视觉推理与多模态大模型的青年交叉研究团队,聚焦Visual Reasoning、Agentic RL、Clinical Tools,推动模型从“生成答案”走向基于证据的观察、验证与行动。Ophiuchus的价值不只是让医学大模型多了几个视觉工具,而是让模型学会在诊断过程中主动“看哪里、怎么看、看完如何修正”。当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据,医学AI才真正从“会回答问题”走向“会进行临床视觉推理”。
2026-05-27 17:26:14
72
原创 AI越用越聪明,自主+自进化是关键拼图丨盛大邓亚峰EverMind@AIGC2026
另一方面,我们认为,未来的AI Memory的Layer(记忆层),服务的可能不仅是资深的开发者,将来很多人都会构建AI应用。我们在token节省和模型成本方面也取得了显著的效果,原因是利用强化学习的方法训练了很小的模型——我们的4B模型在记忆提取和检索使用上的效果可媲美几百B的模型,并且已有不少学术成果发表。当前,大家看到模型进展非常快,但在记忆方面的工作,今年才逐渐多起来,去年这个时候我们和行业里一些团队开始交流AI Memory,这方面的关注还非常少。的爆火,我简单谈谈我的理解。
2026-05-27 12:26:41
620
转载 让大模型“边看边改”,视觉分割准确率直接上涨9% | ICML 2026
给模型一张图、一句话,让它把目标区域的像素圈出来——听起来直接,但一旦目标含糊、被遮挡,或者需要推理才能定位,一次性猜出正确的掩码就变得相当困难。模型不再一次性输出mask,而是先观察图像、进行推理、调用视觉工具、读取反馈,再根据历史结果迭代修正,最终生成更可靠的准确掩码。而RSAgent总体框架如下,包括多轮交互、工具调用、观察反馈、cold-start SFT与agentic RL。痛点不是单纯追求更复杂的分割头,而是让模型在开放语义任务中具备“先判断、再行动、看反馈、再修正”的能力。
2026-05-27 12:26:41
85
转载 OpenAI挖来了个F1级别车手搞公关
在我职业生涯早期,我曾效力于红牛车队,参加过F1级别的职业比赛。后来无论是Salesforce、ServiceNow,还是现在的OpenAI,他几乎每一次跳槽,踩中的都是技术范式切换最剧烈的时候。毕竟现在的OpenAI,既是全球最炙手可热的AI公司,也是最复杂、最难做品牌管理的公司之一。当年从赛道退下来后,他没有选择一条更稳妥的路,而是直接跨进了一个与赛车几乎毫无关系的行业,从零开始做市场与品牌。Salesforce后来之所以能从一家卖CRM的软件公司,变成云计算时代的行业代表,这是很重要的一步。
2026-05-27 12:26:41
69
转载 5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了
尤其是在添加家具、调整位置、修改材质这些复杂任务中,很多传统方法仍然会出现明显的“贴图感”和几何漂移,但VGGT-Edit生成的结果,会明显更像一个真实稳定的3D空间。而这件事,可能比“会生成3D”本身更重要。对于机器人、AR/VR、空间智能这些方向来说,这几乎是致命问题——这些场景真正需要的,不是“某一个角度看起来对”,而是整个3D世界始终稳定一致。对于原生3D编辑来说,这一步非常关键——模型真正需要学习的,不只是“图像变化”,而是同一个编辑,在不同视角下如何始终保持空间一致。但问题也恰恰出在这里。
2026-05-27 10:30:00
68
转载 触觉具身来了个梦之队:天使轮近亿
背靠产学研与地方政策双重加持,作为复旦大学与静安区战略合作的重要落地成果,公司在初创期便获得静安区科经委与市北高新集团的大力培育,先后获得静安区战略性资金及上海市经信委促进产业高质量发展专项资金的支持,上海市科委也针对其核心视触觉传感器的研发给予了专项经费支持,全面加速公司的技术攻关进程。能够夹起衣物,却无法实时感知布料的滑移状态与张力分布,难以完成精准的褶皱整理。对于后发企业而言,沿着先行者的轨迹亦步亦趋难以实现突破,唯有找到行业尚未解决的核心难题,从新的技术变量切入,才能构建起不可替代的竞争壁垒。
2026-05-27 10:30:00
90
转载 DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时
论文共迭代6次(V1:4 次,V2:1 次,V3:1 次),总耗时6天,进行了约108轮Agent调用,消耗64.8万token,写了2234行LaTeX代码。,智能体可自主选题、分配资源、长期积累知识、跨领域持续研究,是当前未实现的理想状态,核心瓶颈为持续知识积累、可靠自我评估、架构规模化。早期智能体框架CAMEL、AutoGen、MetaGPT等为代表,特点是分工协作、多视角纠错,成本较高,沟通易混乱。,人类仅提供研究目标、评估最终成果,智能体可完成多步实验、代码、论文撰写,但无法自主选择研究问题。
2026-05-27 08:49:58
90
转载 双榜SOTA!微软ACL2026新作重新定义AI长记忆
结果它找到了Boston和San Francisco,却完全遗漏了Detroit——因为“attended a conference in Detroit”被埋藏在一条长消息中,与“去过哪些城市”的语义相似度不够高。最终,System-1确保语义直接匹配的记忆不遗漏,System-2确保结构相关但语义距离较远的记忆被覆盖,两者。团队认为,真正的AI记忆应当是有组织的、可推理的、双模式的、并能持续进化的。记忆系统的质量,很大程度上取决于“存储时做了什么”,而不仅仅是“检索时怎么找”。
2026-05-27 08:49:58
94
转载 将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式
情感与主题的深度升华:模型并没有停留在“建雪雕”的表层,它提取了画面中巨大的“振兴东北”刻字,关联了片中“老程盼女儿、小李回流家乡”的人物背景,在总结中直指故事内核:“极寒的温度冻不住东北人的热血,冰雪项目不仅是奇观,更是承载着东北人振兴家乡、呼唤游子归乡的炽热情感与现实路径。当接收到“请找出视频中的高光时刻,并给出你的依据,时间戳用[mm:ss]的形式来表示”的指令时,Keye-VL-2.0- 30B-A3B没有陷入传统AI“哪里有击杀提示就截取哪里”或“只看画面元素剧烈变化”的机械逻辑。
2026-05-26 17:04:42
99
转载 专治世界模型幻觉!ECCV 2026 Workshop征稿,Sergey出席,帝国理工等联合发起
ergey Levine(UC Berkeley)、Jiajun Wu(Stanford)等国际顶级学者做特邀报告,同步举办具身动作世界模型挑战赛,以及主题为From Synthesis to Deployment:Bridging Academic and Industry Focuses on World Models的圆桌讨论,旨在弥合学术界在世界模型合成方面的进展与工业界对部署需求之间的差距。世界模型作为智能体的内部模拟器,在执行前预判风险、规避危险,实现风险感知决策。
2026-05-26 17:04:42
81
转载 卡帕西Anthropic最新头衔:技术员工(MTS)
但尴尬的是,这些案例的争议其实很大,都被吐槽过说没有宣传的那么美好,所谓扁平会变成隐性权力,表面没老板,实际有老员工、核心圈层……头衔都一样,竞争对手就没法通过头衔判断谁是L7谁是L5,推断一个员工具体做什么方向,定向挖人的难度直接上升。一个很直观的事实是,整个商业史上,能在没有层级制度的情况下完成规模化的组织,一只手数得过来。后来离开Ins,自己做了个新闻聚合App,叫Artifact,同样是联创+CTO的标签。这些说不在意职称的,一旦离职,就开始在领英自称上「副总裁」了(hehe)。
2026-05-26 15:31:34
42
转载 把VLM塞进隐式世界模型,港大&小鹏机器人新框架让机器人长出物理直觉
通过将人类的姿态对齐到机器人的动作空间,双系统能够共同从多样的人类动作数据(如EgoDex)中汲取养分:System-2负责从人类视频中提取通用的任务逻辑,而System-1则从人类动作标签中蒸馏通用的运动先验。借鉴认知科学中的双系统理论,不仅让强大的VLM直接在其原生的ViT特征空间中进行轻量化的隐式世界建模(Latent World Modeling),更关键的是,它将这种隐式视觉预见构建为一个可微的结构化瓶颈。System-1则在真实未来特征的指导下,专心学习从感知到精准动作的映射。
2026-05-26 15:31:34
54
转载 留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题
同时,AlphaProof Nexus还在OEIS整数序列百科里证明了44个开放猜想,在代数几何那边解决了一道希尔伯特函数对数凹性的15年悬案,凸优化那边改进了一个锚定梯度下降法的理论边界。这个结果或许也在预示着,未来随着大模型能力持续升级,复杂的多工具组合系统,可能不再是刚需,只用大模型+专业校验工具这套简单循环,就能搞定大多数数学难题。简单理解就是,这群数字之间,既不能一个数整除另一个数,也不能一个数整除另外两个数的和,同时数字还要分布得相对密集,不能只挑寥寥几个数投机取巧。
2026-05-26 15:31:34
56
转载 龙虾之父教你省钱:开源Skill给你的Skill减肥
严格遵循Codex计费规则(UTF8字节数/4向上取整),以模型上下文2%为默认技能预算基数,结合技能优先级排序规则(系统技能>内置技能>插件技能>仓库自定义技能),核算全量技能原始占用令牌、最小渲染令牌、预算内可用令牌。同时可模拟真实运行场景,计算预算不足时的技能描述截断字符数、被省略技能数量,精准输出预算使用率、剩余预算、上下文占用比例等核心指标,直观展示技能体系的资源负载情况。跨Codex内置库、插件缓存、代码库、个人技能根目录,扫描同名技能、描述/内容高度相似的重复技能,标记冗余项。
2026-05-26 13:30:00
53
原创 刚刚,国产AI自己造了AI,全球首例!
在MMLU-Pro、MMLU-Redux、AIME-2025、AIME-2026、BFCL-v4、AA榜单等项目上,也给出了对应成绩。我们完全可以给不同的模型、不同的硬件、不同的任务,分别写专用的代码。如果人不够,那就用AI来凑!更直白一点说,就是当AI写代码的成本越来越低,未来软件不一定非要做成一套通用大框架,也可以针对不同模型、不同硬件、不同任务,现场锻造一套专用代码。这也让MiniCPM5-1B的价值更明确了,它不只是一个小尺寸模型,而是一个在参数规模、部署成本和实际能力之间重新找平衡点的端侧模型。
2026-05-26 13:30:00
588
转载 画数独、烧蜡烛都不翻车了?浙大&阿里让AI先三思再下笔|ACL 2026
让模型画 “数独解完后的样子”、“蜡烛燃烧6小时后的状态”,开源模型要么出现逻辑幻觉,要么无法把文字指令转化为精准视觉操作,形成难以跨越的执行鸿沟。研究者设计了一个独立的Thinker模块,它不直接生成像素,而是充当大脑,负责将模糊的用户意图分解为分层、结构化、且对下游生成器友好的中间表示。阶段,Thinker产生的多条推理路径直接由生成图像的视觉质量打分反馈,这迫使模型放弃空洞的辞藻,转而学习生成“视觉可执行”的指令。这种双向反馈机制,真正实现了脑与手的深度协同。
2026-05-26 13:30:00
32
转载 0.9B跑出90%真机成功率!上海交大为VLA补上空间感
从多视角RGB提取紧凑的隐式深度表征,再以轻量方式融入视觉-语言通路,最后通过flow-matching动作专家输出连续动作。参数,不额外增加硬件负担,用紧凑的隐式深度编码把空间感写进VLA策略里,仿真与真机同时兼顾性能与部署效率。论文中,IDEM骨干约0.13B参数,并结合多视角深度预训练初始化,在轻量条件下引入与深度相关的归纳偏置。值得注意的是,相比只关注benchmark分数,论文也给出了部署侧开销与实时性指标。从RGB学几何,省了硬件,但不少方案依赖较重的基础模型,训练和推理成本偏高。
2026-05-26 11:38:32
39
转载 Grok最新模型吃上Cursor「加餐」,马斯克:Coding实现巨大改进
Cursor数据其实更可能告诉模型,开发者在真实项目里,是怎么描述需求、定位问题、让AI读上下文、修改文件、修复报错、再继续追问的。更大的模型容量,往往能让它更好地理解复杂上下文、进行更长的链式思考,以及处理更具挑战性的真实开发任务~要知道,毕目前承载Grok所有生产流量都由0.5T的v8-small模型,也只有0.5T的大小。用户输入需求后,Grok Build不会直接动手,而是先制定详细执行计划,让用户确认后再执行。这边,也被马斯克亲口点名,补充训练里加入了大量Cursor数据,后续还会继续添加。
2026-05-26 11:38:32
62
原创 刚刚,国产Agent模型闯入全球第一梯队!限时免费
从训练的第一天起,它的目标就不是聊天,而是干活。就像我在实测中感受到的那样,做完桌宠它问你要不要存成Skill,做完周报它提醒你设成定时任务,昆仑万维瞄准的显然不只是一个模型,而是一整套Agent工作生态。发现没,自从模型进入Agent时代后,大部分玩家在推主力模型时都会附带一个轻量版,这也很好理解,就像前段时间Snapchat前机器学习工程师说的那样:。一只小猫,能在屏幕上随机溜达,点击会说打工人语录,右键能切工作模式和摸鱼模式,工作模式带番茄钟倒计时,还要有喝水提醒、远眺提醒、拉伸提醒这些健康功能。
2026-05-26 11:38:32
500
转载 京东JoyInside戴文军:AI的终极形态不是聊天,是融入你家每一件物品丨AIGC2026
过去一年多时间里,我们给很多玩具加上JoyInside,可以陪孩子玩一些游戏,有时候也会陪他过家家,大一点的孩子会发挥他很多的想象,我们和京东图书去联合,把一个个玩具变成了原生的故事机,我们跟京东京造一起打造的AI玩具好评率整个平台第一。AI在这里面对于整体价值指数级放大的作用。
2026-05-25 17:10:01
73
转载 Codex自我蒸馏玩法火了!OpenAI员工亲授:复制粘贴就能让AI消灭重复劳动
不过,Chronicle目前只对macOS上的ChatGPT Pro订阅用户开放,而且记忆未加密存储在本地,会快速消耗rate limit,提示词注入风险也更高。它的作用是屏幕截取,如果你开了这个功能,Codex就能看到你在浏览器、Slack、邮件里做了什么。它就会主动翻查你的历史会话,找出你一直在手动重复做的事,然后替你把这些工作流打包成可复用的工具。先输出候选清单,再创建高置信度的项目,最后告诉我创建了什么、跳过了什么、还需要更多证据的是什么。感觉都太专业了,好像是程序员专属提示词。
2026-05-25 17:10:01
112
转载 抢疯了!AI宠物翻译器:800多块,预售2万单
通过「行为与语言双重建模」,试图把猫狗的叫声和动作,拼成一个动物行为世界模型,这一步解决的是宠物它想干嘛,本质上是AI根据叫声特征做出的情绪和需求推测。从官方展示的demo看,不需要额外的设备,通过语音模型,这产品就能生成一段带有宠物声音特征的语音回复。大家也都知道,以前铲屎官理解宠物,靠眼神、靠经验、靠玄学,最多再加一点「它是不是又骂我呢」的自我脑补。翻译的对不对,翻译的准不准,小猫小狗也说不上来,人也说不上来,全凭产品说啥是啥了。靠叫声的频率、时长、声纹特征,就能识别出宠物内心OS,这事儿真的靠谱吗?
2026-05-25 14:30:00
59
转载 “VLA和世界模型都不是终局,会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026
在我们看来,机器人不管是进入企业还是进入千家万户,大家对硬件的诉求一定是不一样的,不可能只有一款统一的机器人。就像大家用手机,华为、小米、苹果,各有各的偏好,这是个性的需求。但在物理世界,很多东西是大自然定义的:比如一个苹果,你松手它一定会落地,不需要任何人定义,这是现实规律。但我们毕竟活在物理世界,真正想要的有体感的服务,还是需要物理世界中的具体交互。灵波走的是通用大脑路线,也有一些公司比如特斯拉,既造自己的本体,也做自己的大脑——模型专门为本体服务。前不久,我们的机器人还进入了药房的线下零售门店。
2026-05-25 14:30:00
72
转载 DeepSeek V4还能更省!新工具缓存命中率高达99.82%,2折稳定到手
就是说,Reasonix的工作流程是专门为了DeepSeek的缓存机制设计的:旧的上下文固定不动,新消息只往后追加,尽量保证每一轮请求的前半部分完全一样,从而提高缓存命中率,降低长会话成本。仅在当前请求的精确字节前缀和先前请求匹配时才会激活,想要提高缓存命中率,需要解决的是大多数智能体循环会在每次交互时重新排序、重写或注入新的时间戳的问题。有网友分享说,Ta写了一个微型桥接程序,在Codex中使用DeepSeek V4 Pro,同样实现了95%以上的高缓存命中。就这样,开源社区仍不满足。
2026-05-25 12:27:57
154
转载 图灵奖得主领衔,中国大模型第一梯队集结!2026智源大会,看懂AI下一程
两个半场,Dreamer、JEPA系列等国际世界模型的核心技术成员,将携手逆矩阵、生数科技、极佳科技、蚂蚁、自变量等中国力量登场,从视频生成、物理仿真到行为预测,全景式呈现世界模型从前沿研究到产业落地的深度探索。来自基础教育的改革者、AI原生教育的创新者,以及社会学、教育学与人工智能领域的中外专家,将共同探讨人与 AI 的新型关系、青少年成长方式与教育体系的未来演化。无论你是深耕实验室的学者、奋战产业一线的工程师、推动AI落地的企业管理者,还是怀揣AI梦想的青年创业者——。
2026-05-25 12:27:57
152
转载 华为具身大脑一号位创业,用认知科学造世界模型,获亿元级融资
再往下看,具脑磐石核心团队覆盖清华、北大、复旦、中科院等顶尖院所,也有华为、联想、旷视、极智嘉等一线企业背景,形成了从前沿技术研究、软硬件研发、工程化到商业化落地的全链路配置。它的核心价值,是让模型在抽象表征空间里学习世界状态的变化。这个判断带有明确的技术立场:机器人下一阶段的竞争,不会只停留在动作生成和遥操作数据规模上,而会进入认知世界模型、主动推理、长期记忆和持续学习的整合竞争。有人说的是3D空间建模,有人说的是视频生成,有人说的是仿真和强化学习,有人说的是JEPA,还有人说的是主动推理。
2026-05-25 10:05:11
66
转载 卷到今天,Agent的含金量还在提升丨AIGC2026圆桌论坛
我有一个判断:大厂未来会慢慢缩减,甚至部分解体,社会上会出现越来越多OPC公司,越来越原子化,未来真正值得培养的人是通才,产品、设计、交付、Coding都懂一些,才能向AI提出好问题,也有能力review结果。所以到了今年,尤其在ToB和ToD领域,Coding Agent和通用Agent之间的边界已经越来越模糊,它们真正的价值,也不在于帮用户查天气、问信息,而在于生产东西,交付一个可用、有ROI的结果。像Cola这样的Agent,如果能理解用户、和用户共鸣,就可以引导用户使用更强大的工具。
2026-05-24 18:00:00
74
转载 谷歌CEO承认Coding落后了
但用户希望搜索要快,人们使用搜索,是为了连接到互联网上已有的信息和内容,这对我们非常重要,所以你会看到,我们会持续推进产品演进,但会用比较有节奏的方法来做。面对这么大的技术变化,人不安是很自然的,以前一些没这么复杂的技术变化,都曾经让大家焦虑过,更何况这一次,影响范围和变化规模,确实是以前没有过的。我觉得现在也一样,我的目标,是和他们分享我的经验。大家应该兴奋,害怕,还是两者都有?站在整个行业的角度,我们能做的,就是继续把技术做好,也要不断让大家看到:AI到底能带来什么实际好处,这部分,是我们可以努力的。
2026-05-24 16:00:00
131
转载 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026
包括在1月份,大家可能有关注到,无论是ChatGPT还是Claude,都发布了针对医疗领域应用的专属产品,尤其是Claude做的Claude for Health,其实是专注底层的基础设施,在数据、隐私、安全,还有合规层面上去帮助医疗领域的服务提供商和医院等等,更好地进行AI医疗的整合。等领域,这些都覆盖到物理世界和AI的交互。精度、低能耗的传感器,它可以薄到就像手套一样,无论是套在机械手上,或者套在人的手上,它的触觉有非常高精度的传感点,这个触觉数据,就可以成为非常重要的数据来源,去支持物理世界。
2026-05-24 14:00:00
65
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅