- 博客(5168)
- 收藏
- 关注
转载 从语言哲学到 AI 智能体:大语言模型如何回答 150 年前的哲学叩问?
目前,NICE 已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化 AI 前沿社区。2024 年博士毕业于香港中文大学,研究方向为大模型安全和大模型应用,近五年发表 A 类论文 40 余篇,发表论文获 ACM SIGSOFT 杰出论文奖,EMNLP 最佳论文提名,深圳科协优秀论文奖。在本次分享中,我们将跳出枯燥的代码和算法表象,从高维的哲学视角,重新审视 AI 走向人类语言核心的历程。和我们一起站在哲学的高地,预见 AI 的下一步!
2026-04-17 20:09:26
3
转载 招聘 | Ai native婚恋产品招Agent开发联创
我们要做的不仅仅是婚恋产品,更是在创造接下来A2A时代的重要能力 —— 在数字分身(小龙虾)普遍缺乏用户完整的主观数据的情况下,我们在强社交动机场景(婚恋),利用轻松且符合人性的聊天方式,“全面+高效”的采集用户主观数据,搭建个人基于主观数据的小模型。全程AI引导,用户用最懒的办法,只用动动嘴就可以了。我们正在开发一款婚恋匹配神器,用户注册后预约时间,坐等AI来电,通过聊天语音分析,AI会自动做匹配,如双方愿意线上先聊聊,就拉群聊帮他破冰和暖场,下面如双方愿意见面,AI还会自动帮他们协调时间和订餐厅。
2026-04-16 20:26:48
3
转载 SafeHarness:告别防御盲区,为智能体Harness穿上「全生命周期安全护甲」
然而,正是这种“大权在握”的核心地位,使得 Harness 成为了极具价值的攻击面:哪怕只是框架层面的单点妥协(例如一条被投毒的工具输出),风险也会顺着执行管道级联放大到整个系统。与无保护的基线相比,SafeHarness 使智能体的 不安全行为率(UBR)平均降低了约 38%,攻击成功率(ASR)平均降低了 42%。为了解决上述痛点,SafeHarness 提出了一个核心洞察:智能体执行的四个阶段(输入处理、决策制定、动作执行、状态更新)有着各自独特的安全需求,必须由专属的、感知阶段的防御层来守护。
2026-04-16 20:26:48
1
转载 OpenClaw热潮之后,倒计时最后一天 | 线上预约、线下报名
本次报告将提出从性能导向转向价值导向的新视角,系统拆解全天候主动理解与长期持续演进的三大路径,并重点阐述迈向开放智能体网络的实现思路:通过跨组织、跨平台协作能力,以及持久身份、经验积累与持续演进机制,构建可连接、可协同、可成长的通用智能体生态。二是工具调用安全,针对API、MCP等外部工具链,构建调用前的权限校验、参数过滤与异常检测机制。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。刘卫文 上海交通大学副教授。
2026-04-10 22:16:54
19
转载 静态稀疏已死:Flux Attention 开启长文本 LLM 自适应推理新时代
内存访问上,稀疏层只需要加载和保存最小规模的KV缓存,稠密层则保留完整KV,实现了完全连续的内存访问,彻底消除了层内同步长尾,让理论上的算力节省,100%转化为实际的推理速度提升。但当我们尝试将Elastic Attention推向实际工程落地时,一个无法回避的硬件瓶颈出现了:头级别的动态路由,虽然在算法层面实现了最优的稀疏配比,却很难在decode阶段,将理论上的FLOPs减少,转化为实际的wall-clock速度提升。头级别的动态路由,解决了算法层面的自适应问题,却受限于硬件架构,无法完全释放潜力;
2026-04-10 22:16:54
13
转载 静态稀疏已死:Flux Attention 开启长上下文 LLM 自适应推理新时代
内存访问上,稀疏层只需要加载和保存最小规模的KV缓存,稠密层则保留完整KV,实现了完全连续的内存访问,彻底消除了层内同步长尾,让理论上的算力节省,100%转化为实际的推理速度提升。但当我们尝试将Elastic Attention推向实际工程落地时,一个无法回避的硬件瓶颈出现了:头级别的动态路由,虽然在算法层面实现了最优的稀疏配比,却很难在decode阶段,将理论上的FLOPs减少,转化为实际的wall-clock速度提升。头级别的动态路由,解决了算法层面的自适应问题,却受限于硬件架构,无法完全释放潜力;
2026-04-10 22:16:54
16
转载 MASFactory: 多智能体系统开发进入Vibe Graphing时代
同时每一个子图都可以是一个自治域,对于每个自治域都可以拥有独一套的编排语言——它可以使代码编排的结构、可以是Vibe Graphing结构、可以是纯拖拽生成的结构,也可以预先设定好的复合组件。开发者既可以自己写,也可以自己拖拽,还可以先让 AI 起草系统结构,再编译成可运行的多智能体工作流——以上三种方式并不是相互割裂独立的,而是可以在同一个项目中同时使用。在每一个阶段结束后,用户都可以查看当前生成效果,并进一步提出修改意见,从而让整个生成过程更可控,也更贴近真实的论文讲解与汇报需求。
2026-04-08 19:39:23
14
转载 让大模型异步地增强推理能力
测试时扩展虽然有效,却往往伴随着更长的推理时延、更高的显存压力,以及更复杂的系统同步开销。也就是说,瓶颈并不只是“模型算得多”,更在于“系统等得久”。这项工作的关键思路,是把传统偏同步的测试时扩展流程,改造成一个更灵活、更高效的异步框架。ATTS的价值,就在于它把测试时扩展这件事,从一种高成本的能力增强手段,推进成了一个更具工程可落地性、更有统计保证、也更具系统想象力的技术框架。这意味着,通过更合理的推理时协同机制,轻量草稿模型与强目标模型的组合,可能成为未来高效推理系统中的一种极具现实意义的路线。
2026-04-08 19:39:23
28
转载 通义实验室正式开源 Mobile-Agent v3.5 及新一代多平台 GUI Agent 基座模型 GUI-Owl-1.5
如果你正在做 Computer Use / Mobile Use / Browser Use 相关能力,希望实现多端统一自动化,并将 GUI 操作与 Tool/MCP 编排结合,支持端云协同部署,那么 Mobile-Agent v3.5 与 GUI-Owl-1.5 提供的不只是一个 demo,而是一套接近真实交付需求的底座与方法论。从文档、教程、社区问答中整理并改写为 QA/VQA,提升用户语言与软件功能、操作路径的对齐。:把这些能力补齐,让 Agent 能规划、能执行、能纠错、能记忆,真正形成工作闭环。
2026-04-07 17:42:46
19
转载 给 OpenClaw 再加一道安全护栏
runtime 这部分,我们不是只盯最后一步“执行了什么”,而是从六个方面一起看:input,memory,plan,tool,execution,output。一个 skill 如果会主动索取、读取、暴露、转存这些内容,那就已经不是“小心一点”的问题了,得重点盯。再看它是从哪来的,它依赖的东西又是从哪来的。毕竟,很多风险不是来自“明显看起来很坏的代码”,而是来自“这玩意儿到底是谁家的,怎么下来的,为什么没人认识”。它是不是只拿了“完成任务所需要的权限”,还是顺手多拿了一圈,能看的都看,能碰的都碰?
2026-04-07 17:42:46
11
转载 OpenClaw热潮之后 | 上海线下
成立以来,我们汇聚海内外 300+ 嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超 15 万关注。目前,NICE 已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化 AI 前沿社区。我们希望探索的,不是更快的预测,而是可持续演化的决策能力。这场产学研融合的 AI 盛宴开放游览参观,邀你近距离体验前沿 AI 技术与创新成果,感受多元智能应用的独特魅力!这一次,我们不聊虚幻的蓝图,只聊真实的痛点与落地的未来。
2026-04-06 23:13:43
26
转载 Claude Code + 多智能体协同:把数据清洗、建模、部署一条龙自动化
系统覆盖Claude Code AI编程智能体、OpenClaw个人AI代理、SubAgent多智能体并行架构、MCP工具生态、Skills技能扩展等核心技术,并深度横评GPT、Claude、Gemini、DeepSeek等七大主流模型的科研能力差异。一次学全,体系化掌握。培训规模:从2017年至今累计完成300+场线下深度培训,培训科研人员超过20,000人,其中80%为高校教师、教授、研究生、博士生、博士后、医院医生、科研院所等研究人员,学员覆盖包括清北复交在内的全国上百所高校。
2026-04-01 10:02:12
32
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
17
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
23
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
9
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
8
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
11
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
10
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
10
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
14
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
15
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
32
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
12
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
13
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
6
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
5
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
6
转载 ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
这些"含糊的平局"在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。实验数据来自 MT-Bench(80题)和 ArenaHard(500题),裁判模型覆盖 Llama-3 系列(3B/8B/70B)和 GPT-4o。看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5分→100分),又加了概率归一化。
2026-04-01 10:02:12
1
转载 中国中文信息学会具身智能专委会(筹)研讨会议程
作为本次会议的主办方,中国中文信息学会具身智能专业委员会(筹)致力于探索自然语言处理在具身场景下的新的研究方向和研究方法,推动自然语言处理的研究进展,组织具身智能相关学术活动,培养大模型与具身智能结合的人才,促进大模型与具身智能相关方向的学科交叉融合,产生跨学科和领域的高水平科研成果,扩大和提升中国中文信息学会综合影响力。面向通用机器脑、工业制造、泛在服务等领域的具身智能发展需求,聚焦物理世界感知数据及灵巧手操控数据的供给问题,介绍固定采集及移动采集的数据采集方案,以及大规模数据的采集、标注及质控平台。
2026-03-31 15:51:57
18
转载 当 OCR 开始改写格局:PaddleOCR 为什么能超越 Tesseract,登顶 GitHub Star 第一
因为在大模型时代,OCR 的位置确实在变。论文里提到,PP-OCRv5 只有 5M 参数,但通过一整套 Data-Centric 的优化方法,在 OCR 任务上做到了能和很多大体量视觉语言模型正面竞争,同时还有更好的定位精度、更低的幻觉风险,以及更低的部署成本。论文里提到,PaddleOCR-VL 在多个公开和内部 benchmark 上都拿到了很强的结果,不仅在文本、表格、公式、阅读顺序这些关键指标上做到 SOTA,而且用的视觉 token 和参数量都更少,还支持 109 种语言。我个人挺认同这条思路。
2026-03-31 13:11:04
32
转载 GUI智能体经常“手抖”!状态感知推理拯救GUI智能体的“多动症”
当前,多模态智能体 (Multimodal Agents) 在图形用户界面交互 (GUI) 中日益强大,但在处理看似简单的“开关控制(Toggle)”指令时,却经常“手抖”,像个患了“多动症”的孩子。例如,当用户要求“打开已处于开启状态的开关”时,智能体往往倾向于点击开关改变状态,导致状态被反向更改,而非是理解“开关已经打开,无需再点击”。实验结果显示本文的训练方法保留或者提升了智能体在通用智能体任务上的表现,在不牺牲通用性的前提下,精准治疗了GUI智能体开关控制的漏洞。训练前:深陷“多动症”泥潭。
2026-03-30 15:36:37
21
转载 Echo:迈向通用预测智能
第一个是工程悖论:互联网内容持续更新,用过去的事件做训练题时,模型在搜索网页的过程中几乎必然会撞上包含答案的信息,数据泄露在工程实现上极难杜绝。大模型能否预测未来?更有说服力的一个细节是,EchoZ 的竞争对手不仅有顶级大模型,还有预测市场上真实投入资金的人类交易者的聚合判断,EchoZ 的 Elo 分数显著高于这条基线。总结来说,这两个维度分别关注模型是否能够在时间维度上引入可量化的前瞻性的关键变化,并在同一时点上将这些变化与既有信息整合为结构化的因果判断,从而提升预测的完整性与动态适应能力。
2026-03-30 15:36:37
16
转载 所有环节都上最强模型,这可能是做 AI 智能体最贵的错误
越来越多的研究和实践都在说明,真正决定智能体效果和成本的,不只是单个模型有多强,而是你有没有把合适的模型放在合适的位置上。换句话说,智能体真正需要的,已经不只是一个模型,而是一个能持续寻找最优解的。这时候,一个在原型阶段看起来“很合理”的选型,可能会在规模化之后,变成系统最沉重的负担。规划器、求解器、批评器、工具调用器,这些模块之间不是彼此独立的,它们会互相影响。很多时候,存在一种预算友好型组合,它的准确率只比最优解低 3% 到 5%,但成本却低 10 倍、20 倍,甚至 100 倍以上。
2026-03-23 13:31:17
22
转载 测试时递归思考:无需外部反馈的自我提升
我们提出了 Test-time Recursive Thinking (TRT),一个让大语言模型在推理时不断自我改进的框架,无需额外训练,也无需外部反馈。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。, 研究方向主要包括大语言模型推理、Agentic Learning 与跨模态学习,关注如何让语言模型具备更强的推理能力、长上下文理解能力,以及从连续表征中学习的能力。备注【昵称-单位-方向-NICE入群】
2026-03-21 18:17:33
47
转载 ICLR 2026 | 大模型的无监督强化学习能走多远?清华团队给出了系统性答案
研究者系统解剖了无监督 RLVR 的内在机制,发现所有基于模型自身信号的内在奖励方法,无论多数投票、熵奖励还是其他变体,都遵循着一条相似的轨迹:训练初期性能快速攀升,但到达某个临界点后,开始不可逆地滑落。通往 scalable 的无监督强化学习,需要的不是盲目相信模型可以自我进化,而是知道什么时候该让它倾听自己的回声,什么时候该把它推向真实世界的验证。这不是某个方法的缺陷,而是机制的宿命:它们本质上都在锐化模型已有的偏好,像一个回声室,让模型不断重复自己最初相信的东西。问题的根源在于奖励的来源。
2026-03-21 18:17:33
70
转载 如何给 Reasoning 提供过程奖励?逻辑能力或许是激发通用推理能力的关键!
比如说大模型在推理的时候会做很多隐性的假设,但是这些假设缺失的话会导致验证器的结果与实际结果不匹配。,新加坡国立大学计算机系博士一年级,主要研究方向是大模型的推理能力,包括大模型的严谨逻辑推理,符号推理。并且,训练后的模型也能在分布外的任务上比如数学(GSM8K),常识推理(CommonsenseQA),演绎推理(BoarderGameQA)有很好的提升。目前,NICE 已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化 AI 前沿社区。
2026-03-21 18:17:33
20
转载 从内在机理出发:大模型的安全对齐与知识更新
受这些见解的启发,我们提出了 SPHERE(Sparse Projection for Hyperspherical Energy-Regularized Editing,面向超球面能量正则化编辑的稀疏投影),这是一种由 HE 驱动的正则化策略,能够稳定神经元权重分布,最终在保留先验知识的同时实现可靠的序列更新。在这项工作中,我们致力于深入理解并缓解序列编辑导致的性能退化。对广泛使用的编辑方法进行的实证研究表明,HE 的动态变化与编辑性能之间存在强相关性,编辑失败的情况始终伴随着 HE 的剧烈波动。
2026-03-20 19:04:37
23
原创 最新VLA世界模型综述
它不直接控制手,而是预测未来的画面或特征,告诉 VLA 政策:“嘿,如果你这么做,下一秒会发生啥。保证生成的动作不仅语义对,物理上也连贯。就是机器人脑子里想的挺好,“我要拿起这个杯子”,结果大模型生成的动作指令根本不符合物理规律,要么手穿模了,要么杯子碎了。如果说 2023 年是大模型的“元年”,那 2026 年可能就是具身智能的“成年礼”了。论文里也说了,这些仿真环境都快被“刷爆”了,接近饱和。这篇综述算是给 2023-2025 年的世界模型发展画了个句号,同时也指明了 2026 年后的方向。
2026-03-20 19:04:36
287
转载 智能体互评时代开启!PRDBench重塑代码智能体开发能力测评
我们在数据集上评测了当前主流代码智能体,包括商业版(Claude Code、Gemini CLI、CodeX、Qwen Code)和基于 ADK 的最小化智能体(使用 Claude-4.5-Sonnet、Gemini-3-Pro、GPT-5.2、Qwen3-Coder 等作为骨干模型)。代码修改量方面,GPT-5.2 和 Gemini-3-Pro 改动较大(约 1500 行),而 Claude Code 和 Qwen Code 仅做微调(约 100 行),体现出不同的调试策略(详见论文表8)。
2026-03-20 19:04:36
22
转载 揭秘特权信息蒸馏如何让大模型学得更聪明
简而言之,我们的目标是在评估时获得最佳的非特权策略,同时在训练过程中利用提示性策略。他的研究重点是利用LLM在用户层面的对话属性,增强LLM智能体在复杂、多步骤环境中的能力和对齐性。此前,他曾在ServiceNow蒙特利尔担任访问研究员,与Massimo Caccia合作,研究LLM在智能体任务中的推理。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。2026.03.20 周五 21:00 美东时间。
2026-03-20 19:02:33
20
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅