自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1869)
  • 收藏
  • 关注

转载 GLM-5架构曝光,智谱股价两天暴涨60%:采用DeepSeek同款稀疏注意力!

与此同时,OpenRouter平台上突然出现的神秘匿名模型「Pony Alpha」,编程和推理能力极为强劲,被社区91%以上的用户判断为GLM-5测试版。模型一上线就引起了开发者社区的广泛关注,它的编程能力非常突出,能根据单条提示直接生成完整的功能性应用程序,在复杂推理和Agent工作流上同样表现出色。在vLLM推理框架的PR中,开发者发现GLM-5的实现逻辑被直接映射到了DeepSeek-V3的组件上。架构,共256个专家,每次推理激活8个,激活参数约44B,

2026-02-10 17:27:40 59

转载 全国首部面向AI大模型的数据流通协作安全合规标准来了!

与数据提供方、数据处理方、大模型研发与运营机构、AI应用开发与服务企业,以及技术支撑机构、数据安全服务商、法律合规机构等产业链各方搭建跨领域合作桥梁,推动经验交流与资源对接。面向AI大模型的可信数据协作安全与合规标准,本标准旨在为可信空间数据协作各方提供兼顾技术安全与操作合规的全流程参考指引,助力AI大模型高质量数据的获取、共享与流通。,明确大模型研发运营机构、AI应用开发与服务企业、数据提供方、数据处理方、技术支撑方以及法律合规机构等多元主体在可信数据协作中的协作规则、操作规范与风险防控机制。

2026-01-30 08:18:35 34

转载 Gemini 3「开眼」像素级操控!谷歌回应DeepSeek-OCR2

在Google AI Studio的演示应用示例中,模型识别原始数据,编写代码将之前的SOTA归一化为1.0,并生成专业的Matplotlib条形图。此外,Google还在探索如何为Gemini模型通过更多工具(包括网络和反向图像搜索)来进一步确立其对世界的理解,并计划将此功能扩展到Flash以外的其他模型尺寸。,通过DeepEncoder V2模拟人类的视觉注意力机制,动态重组图像信息,把「看」这个动作做到了极致的轻量化和逻辑化。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。

2026-01-29 16:27:35 28

转载 <span class=“js_title_inner“>Gemini 3「开眼」像素级操控!谷歌回应DeepSeek-OCR2</span>

在Google AI Studio的演示应用示例中,模型识别原始数据,编写代码将之前的SOTA归一化为1.0,并生成专业的Matplotlib条形图。此外,Google还在探索如何为Gemini模型通过更多工具(包括网络和反向图像搜索)来进一步确立其对世界的理解,并计划将此功能扩展到Flash以外的其他模型尺寸。,通过DeepEncoder V2模拟人类的视觉注意力机制,动态重组图像信息,把「看」这个动作做到了极致的轻量化和逻辑化。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。

2026-01-29 16:27:35 11

转载 AI大模型入门,你可能缺的就是这份“地图”和“工具箱”

AI 能力模型图 2026 版》 ,为你清晰勾勒出从基础到应用的核心知识模块与先后顺序。无论你的目标是理解技术原理、开发智能体(Agent),还是掌握图像生成,这张图都能帮你明确方向,让学习过程事半功倍。它就像一份为你定制的“学习地图”和“百宝箱”,旨在帮你扫清障碍,高效入门甚至进阶。:通过分门别类的练习(大模型面试真题 102 道、LLMs 专项 97 道),帮你查漏补缺,建立面试自信。扫描下方二维码,即可一键领取上述所有内容,开启你的系统化AI学习之旅。等热门应用的一站式教程,让你即学即用。

2026-01-26 08:25:59 20

转载 <span class=“js_title_inner“>AI大模型入门,你可能缺的就是这份“地图”和“工具箱”</span>

你是否也对 AI 大模型充满好奇,想系统学习却不知从何入手?或是看了大量零散教程,依然感觉知识不成体系?别担心,我们为你整理了一份涵盖学习路径、实战工具、面试真题与行业前沿的“AI 大模型全景资料包”。它就像一份为你定制的“学习地图”和“百宝箱”,旨在帮你扫清障碍,高效入门甚至进阶。盲目学习最容易半途而废。我们提供的 《AI 能力模型图 2026 版》 ,为你清晰勾勒出从基础到应用的核心知识模块与先后顺序。无论你的目标是理解技术原理、开发智能体(Agent),还是掌握图像生成,这张图都能帮你明确方向,让学习

2026-01-26 08:25:59 15

转载 Agent Skill 相关资料、笔记和思考!

没有人不想定义标准,比如谷歌也折腾了 A2A[5](Agent2Agent,跨智能体通信协议)、AP2[6](Agent Payments Protocol,智能体支付协议),UCP[7](Universal Commerce Protocol,通用商业协议),但目前来看,也许是太过超前(Agent 还没发展到相互通信、打通交易支付流程那一步),所以影响力暂时还比不上简洁有效的 MCP 和 Skill(如果你把 Skill 看做是一种标准的话,在我来看,这当然是一种标准)。理论上可以,但实际没有必要。

2026-01-24 16:08:16 31

转载 九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代

在代码效率评估中,IQuest-Coder-V1-40B-Instruct在Mercury基准上达到83.6分(Pass@1)和95.3分(Beyond@1),表明其不仅能生成正确代码,还能产生运行时间高效的结果;在Text-to-SQL任务中,该模型在Bird基准上达到70.5分,在Spider基准上达到92.2分,显示出卓越的语义解析和查询生成能力。在代理编码任务中,IQuest-Coder-V1-40B-Loop-Instruct在SWE-Bench Verified上达到76.2。

2026-01-06 19:22:26 107

转载 <span class=“js_title_inner“>九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代</span>

在代码效率评估中,IQuest-Coder-V1-40B-Instruct在Mercury基准上达到83.6分(Pass@1)和95.3分(Beyond@1),表明其不仅能生成正确代码,还能产生运行时间高效的结果;在Text-to-SQL任务中,该模型在Bird基准上达到70.5分,在Spider基准上达到92.2分,显示出卓越的语义解析和查询生成能力。在代理编码任务中,IQuest-Coder-V1-40B-Loop-Instruct在SWE-Bench Verified上达到76.2。

2026-01-06 19:22:26 10

转载 <span class=“js_title_inner“>九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代</span>

在代码效率评估中,IQuest-Coder-V1-40B-Instruct在Mercury基准上达到83.6分(Pass@1)和95.3分(Beyond@1),表明其不仅能生成正确代码,还能产生运行时间高效的结果;在Text-to-SQL任务中,该模型在Bird基准上达到70.5分,在Spider基准上达到92.2分,显示出卓越的语义解析和查询生成能力。在代理编码任务中,IQuest-Coder-V1-40B-Loop-Instruct在SWE-Bench Verified上达到76.2。

2026-01-06 19:22:26 8

转载 CVPR 2025 新方法:小波+原型增强Transformer,像素级缺陷无处可藏

WPFormer通过巧妙融合小波分析的频域感知能力与原型学习的语义抽象能力,为像素级缺陷检测提供了一条新路径。这充分证明了其融合频域与空间域的双路径设计,在应对弱缺陷、复杂背景等挑战时的有效性与通用性。查询只需与这些数量远少于像素的原型进行交互,就能高效捕获关键信息,仿佛聚光灯直接打在了最重要的区域。在智能制造的流水线上,每一处微小的表面缺陷都可能影响最终产品的可靠性。另外,WPFormer提出的WCA和PCA模块设计精巧,具有极强的独立性和可移植性,非常适合作为“即插即用”模块应用于其他计算机视觉任务。

2026-01-02 14:44:39 125

转载 DeepSeek 发布新论文,提出全新 MHC 架构,有何创新与应用前景?

别被名字吓跑,这件事情的本质,是在挑战 AI 圈儿过去十年的绝对真理。但在动辄几千万美元的训练成本面前,多花点时间,换来的是模型性能的显著提升,和绝不炸机的安全感。这种脚踏实地理性的光芒,我觉得才是最美丽,最珍贵,最值得敬佩的。在 AI 这个行业里,最容易走的路就是大力出奇迹。但最难的路,是回头审视那些大家都习以为常的事物,去优化最底层的数学公式。训练大模型就像几百人排队玩传话游戏,原来的 ResNet 为了防止传话失真,允许后面的人直接听前面的喊声。不管外面如何喧嚣,传到下一层的信号,永远是干净稳定的。

2026-01-02 11:56:34 87

转载 <span class=“js_title_inner“>DeepSeek 发布新论文,提出全新 MHC 架构,有何创新与应用前景?</span>

别被名字吓跑,这件事情的本质,是在挑战 AI 圈儿过去十年的绝对真理。但在动辄几千万美元的训练成本面前,多花点时间,换来的是模型性能的显著提升,和绝不炸机的安全感。这种脚踏实地理性的光芒,我觉得才是最美丽,最珍贵,最值得敬佩的。在 AI 这个行业里,最容易走的路就是大力出奇迹。但最难的路,是回头审视那些大家都习以为常的事物,去优化最底层的数学公式。训练大模型就像几百人排队玩传话游戏,原来的 ResNet 为了防止传话失真,允许后面的人直接听前面的喊声。不管外面如何喧嚣,传到下一层的信号,永远是干净稳定的。

2026-01-02 11:56:34 15

转载 用 RL 做 LLM 后训练:半年踩过的坑与心得

但 Corner Case 的覆盖恰恰是 RL 最大的魅力,相较于 SFT,RL 只需要准备好环境和 Questions,剩下的就无脑交给 GRPO 和 LLM 梭哈,它可以自动处理 OOD 和 Corner Cases。比如通过环境反馈加自然语言反思来合成数据,反思得到的轨迹的 logprob 是在有额外上下文的情况下获得的,和直接用 Question 推理的 logprob 是不一致的,所以重要性采样理论上不能直接用。如果非要很大的输出长度,就要非常小心超长轨迹和离群值,该过滤就过滤。

2025-12-28 18:30:10 67

转载 <span class=“js_title_inner“>用 RL 做 LLM 后训练:半年踩过的坑与心得</span>

但 Corner Case 的覆盖恰恰是 RL 最大的魅力,相较于 SFT,RL 只需要准备好环境和 Questions,剩下的就无脑交给 GRPO 和 LLM 梭哈,它可以自动处理 OOD 和 Corner Cases。比如通过环境反馈加自然语言反思来合成数据,反思得到的轨迹的 logprob 是在有额外上下文的情况下获得的,和直接用 Question 推理的 logprob 是不一致的,所以重要性采样理论上不能直接用。如果非要很大的输出长度,就要非常小心超长轨迹和离群值,该过滤就过滤。

2025-12-28 18:30:10 10

转载 杨立昆赌上后半生,押注大模型必死!哈萨比斯誓将Scaling进行到底

在我看来,这完全是胡扯。这条路根本不可能走得通。在人们常用的计算理论类比中,人类大脑常被视为近似图灵完备的系统,Hassabis认为人脑和基于Transformer的基础模型,同样都是近似图灵机的系统。大约一周前,图灵奖得主、「深度学习之父」Yann LeCun在一期播客中「宣告」了大模型的「死刑」,直接把当下最主流的AI路线骂成了「胡扯」。因此,Hassabis认为人脑本就是一个宇宙级的「通用AI」,具备无限学习潜能,而人类文明创造力,则是大脑高度通用性的最强证明。

2025-12-24 17:59:35 119

转载 刚刚,AI 大神 Karpathy 2025 年度总结刷屏!

当然目前早期和现有的版本是 emoji 和 Markdown 这类东西,它们是装扮和排版文字的方式,用标题、粗体、斜体、列表、表格等让阅读更轻松。与 SFT 和 RLHF 这两个相对轻量的阶段不同,RLVR 的训练对象是客观的、无法被刷分的奖励函数,模型没法通过投机取巧来骗取高分,必须真正解决问题,因此可以进行更长时间的优化。注意,真正关键的区别不在于 AI 操作碰巧在哪里运行(云端、本地还是别处),而在于其他一切:那台已经开机、配置好的电脑,它的安装环境、上下文、数据、密钥、配置,以及低延迟的交互。

2025-12-20 16:21:18 141

转载 <span class=“js_title_inner“>刚刚,AI 大神 Karpathy 2025 年度总结刷屏!</span>

当然目前早期和现有的版本是 emoji 和 Markdown 这类东西,它们是装扮和排版文字的方式,用标题、粗体、斜体、列表、表格等让阅读更轻松。与 SFT 和 RLHF 这两个相对轻量的阶段不同,RLVR 的训练对象是客观的、无法被刷分的奖励函数,模型没法通过投机取巧来骗取高分,必须真正解决问题,因此可以进行更长时间的优化。注意,真正关键的区别不在于 AI 操作碰巧在哪里运行(云端、本地还是别处),而在于其他一切:那台已经开机、配置好的电脑,它的安装环境、上下文、数据、密钥、配置,以及低延迟的交互。

2025-12-20 16:21:18 11

转载 揭秘 AI 记忆、RAG 演进与自我进化的工程实践!

目前的很多 Agent 极其脆弱,本质上只是一个“大模型接口的封装”。在面对复杂业务时,它们缺乏对信息的“消化”能力——不知道什么该记入长期记忆,不知道如何组装短期上下文,导致任务执行混乱。在 2025 年的今天,我们必须承认,当我们要构建一个复杂的 AI 系统时,仅仅会写“你是一个 XX 专家”是远远不够的。:AI 不再是简单调用 API,而是理解工具的副作用与参数语义,实现真正的 Tool Manipulation。探讨在实际业务中,如何平衡记忆检索的“速度”与“深度”,实现信息的高效流转与智能组装。

2025-12-16 11:49:12 58

转载 AI顶会NeurIPS论文数,中国占半壁江山!黑马港科广亮眼

作为全球AI领域的年度最大学术盛事之一,今年的NeurIPS呈现出一种前所未有的撕裂感:一场会议,两个主场——一边是算力与资本的圣地硅谷的「后花园」,另一边则是由于签证壁垒而被迫形成的「平行宇宙」。而在OpenReview滚动的录取名单背后,一个更具历史意味的转折点正在浮现:清华大学,这所中国最顶尖的学府,正以一种不可阻挡的态势逼近长期的霸主谷歌。在LLM推理成本高企的背景下,千问团队提出了一种带有非线性和稀疏性的门控注意力机制,不仅解决了长文本处理中的「注意力陷阱」,更大幅提升了模型效率。

2025-12-15 17:46:49 337

转载 金山、Zilliz、腾讯、灵犀量子专家齐聚,揭秘 AI 记忆、RAG 演进与自我进化的工程实践

目前的很多 Agent 极其脆弱,本质上只是一个“大模型接口的封装”。在面对复杂业务时,它们缺乏对信息的“消化”能力——不知道什么该记入长期记忆,不知道如何组装短期上下文,导致任务执行混乱。在 2025 年的今天,我们必须承认,当我们要构建一个复杂的 AI 系统时,仅仅会写“你是一个 XX 专家”是远远不够的。:AI 不再是简单调用 API,而是理解工具的副作用与参数语义,实现真正的 Tool Manipulation。探讨在实际业务中,如何平衡记忆检索的“速度”与“深度”,实现信息的高效流转与智能组装。

2025-12-12 08:40:55 40

转载 通义千问凭借“门控注意力”斩获 NeurIPS 最佳论文奖!详解Gated Attention原理

此外团队还进一步发现了门控机制能消除注意力池(Attention Sink)和巨量激活(Massive Activation)等现象,提高了模型的训练稳定性,极大程度减少了训练过程中的损失波动(loss spike)。得益于门控机制对注意力的精细控制,模型在长度外推上相比基线得到了显著的提升。本文的成果耗费大量工作,只有利用工业规模的计算资源才能完成,而论文团队直接分享了他们的研究成果,这将增进社区对大型语言模型中注意力机制的理解,尤其是在LLM领域科学成果开放共享逐渐减少的背景下,这种做法非常值得称赞。

2025-12-11 12:45:39 259

转载 65页最新系统性综述把Deep Research讲透了

代表性的 DR系统 Gemini、OpenAI、Grok DR/Manus/SunaAI。的场景(科研调研、政策简报、竞品分析)里,它们常常“胡说八道”或“顾头不顾尾”。传统大模型靠静态参数知识或单次检索-生成(RAG)就能应付事实问答,但在。Deep Research 不是简单的“RAG Pro”,而是让大模型。可信度加权、多智能体辩论、RL 事实奖励;从“找答案”到“写综述”再到“发论文”,DR 正在把 AI 推向。多智能体并行,预算可控,零训练成本;:会规划、会反思、会质疑、会创新。

2025-12-04 15:18:45 57

转载 李飞飞和LeCun的世界模型之争

或许正是因为如此,在Marble自己的博客上,虽然屡屡提及「世界模型」与「导出高斯散射体、网格和视频」,但几乎完全没有提到机器人。所以,这类模型虽然没法像Marble那样生成精致的3D图像,看上去不那么「惊艳」,但它更像是在训练机器人的「大脑」。这难道不就是高斯Splat模型吗?Marble渲染「世界长什么样」,Genie 3展示「世界怎么变」,JEPA则探究「世界的结构是什么」。这类世界模型的任务,不是渲染精美的像素,是让机器人能提前想几步,学会在行动前预判世界的变化。

2025-11-29 13:24:21 63

转载 新鲜出炉!斯坦福2025 CME295课程免费公开

首先从Transformer基础讲起,包括 NLP 背景、分词、向量表示等基础概念以及Transformer架构。后续各讲分别深入探讨基于Transformer的。最后,给大家推荐AI+交叉学科的现有idea,如果你想在3-6个月内发一篇计算机SCI/CCF相关论文,一定不要错过!、LLM 的训练、调优、推理、赋予能动性、评估等方面,最后一讲聚焦于结论与未来趋势。:Transformer模型的核心,实现长距离依赖捕捉。:Transformer编码器-解码器结构的详细解析。分词(Tokenization)

2025-11-13 09:01:48 106

转载 李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器

在漫长的人类历史中,我们共享的唯一三维世界是物理世界。随着空间智能世界模型在推理与生成能力上的不断增强,可以想见,在某些情况下,模型不仅能预测世界的下一状态,还能基于这一新状态,进一步预测实现目标所需的下一步行动。无论是孩子在沙滩上筑起的沙堡,还是他们在电脑上玩《我的世界》所创造的空间,这种基于空间的想象力构成了现实与虚拟世界中交互体验的核心。借助具备空间智能的模型,建筑师可以在动工之前快速可视化建筑结构,甚至漫步于尚未存在的空间中,从而以一种讲故事的方式,探索人类未来的生活、工作与聚会方式。

2025-11-11 17:59:57 118

转载 Claude 4.5 杀疯了,能一口气写出一万多行代码。。。。

他觉得AI 编程体验很像是处于 L2 阶段的自动驾驶:你给出方向(spec),平时让系统自动行驶,只有在复杂路段或偏离轨道时,才需要接管。卷编程速度和开发能力,人类肯定是卷不过 AI 的,而且差距会越来越大。这 4 个视频选的都是比较有代表性的实操案例,既有功能实现,也有技术选型与 AI 协作的思维模式升级,知识点一串多。首先,视频全都是最近录制的,非常新鲜,而且讲得比较细致,基本上就是把实操过程录下来了,方便跟练。」,有 4 个独立的实战案例视频,展示 AI 编程最佳实践。更夸张的是,它能连续敲出。

2025-11-10 16:17:06 55

转载 从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较

当然,位置嵌入已经从绝对嵌入演进到旋转嵌入(RoPE),多头注意力机制已基本被分组查询注意力机制所取代,而更高效的 SwiGLU 也取代了 GELU 等激活函数。此外,Kimi 2在MoE模块中使用了更多的专家,在MLA模块中使用了更少的头。Llama 4使用了分组查询注意力(GQA)而非多头潜在注意力(MLA),并且在MoE模块中使用了更少但更大的专家。Qwen3的密集模型采用了较深的架构(更多Transformer块),具有更多的层,而 Llama 3 是一种更宽的架构,具有更多的注意力头。

2025-11-09 16:59:10 334

转载 Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识

它直接在模型中间层注入随机状态,而非使用独立的全编码器。在训练过程中,编码器仍被使用一次,以帮助模型学会如何选取良好的隐藏状态,但它仅与网络的一部分协同工作。合成序列具有固定长度,包含一个由随机字母重复8次构成、位于随机位置的「目标」,以及由感叹号组成的独立同分布噪声,还有一个提示目标字母的提示语。这可能是一个重要节点,Transformer的思维方式被重塑,从「预测下一个词」迈向「思考如何表达」。第二个架构增加了随机状态Z,并在训练时使用额外的编码器网络来推断每个样本对应的隐藏状态。

2025-11-06 16:49:00 66

转载 全国首部AI智能体应用评估标准,现公开征集起草单位和个人!

标准为应用方的各类企业用户提供了一套系统的评估方法,有效化解“选型难、衡量难、优化难”的困境。,通过构建一套支持智能体规模化、高质量应用的评估基座,为各类企业及服务机构提供一致、可信的评估依据,填补当前智能体应用效果难以量化、跨系统对比缺失标准的核心空白。面对市场上多样的AI智能体,由于缺乏统一的“能力标尺”,企业难以科学评估其与自身业务场景的匹配度,导致投入巨大资源后,智能体却无法有效解决业务问题。传统的绩效指标难以适用,导致AI智能体的成效难以衡量,智能体投资的商业合理性也无法得到有效证明。

2025-10-30 09:30:31 121

转载 李沐:年度演讲谈智能体!

“没问题,John。如果最好的闭源模型(比如OpenAI)的API得分是90,但在你的应用中,通用能力测试得分必须是85。我们现在做的是Al电话销售员(Al telemarketer),也就是说,语音智能体扮演的是“电话推销员”的角色。我们学到的一个重要经验是,即使是游戏这种听起来很简单领域,也涉及大量遵循指令(instruction following)的问题。例如,这个游戏是科幻题材,时间设定在两千年后,而你的对话是随机的?“如果你的牙齿出现(具体)问题,(赔付是多少)” 这样的回答才是准确的。

2025-10-29 15:33:25 77

转载 小米最新大模型成果!罗福莉担任通讯作者!

不过,除了上下文不一致,MoE架构还涉及到路由选择不一致的问题——按照传统的解决方案,即便是重复的上下文,每一次计算,模型还是要重新选专家、激活专家。有意思的是,就在今年9月DeepSeek登上《Nature》的时候,罗福莉也出现在了作者名单,不过是以“北京独立研究者”的身份。他们的想法是,既然对于对相同的上下文,MoE的路由结果应该一样,那干脆,把推理阶段的路由掩码和前缀KVCache一起缓存起来。但稍有有个新问题,在这篇论文成果的单位注释中,罗福莉的单位没有被明确,她既不是北大的,也没有被归入小米。

2025-10-17 15:20:25 108

转载 18岁天才少年,登上Nature封面!

2022年加入DeepSeek,并参与了DeepSeek-Coder、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-V3、DeepSeek-R1等几乎所有重要项目的研发。年仅18岁的天才少年涂津豪作为作者之一,以实习生身份参与其中,他的故事从高中生到Nature作者,堪称励志传奇。凭借Claude的强大性能,结合Thinking Claude思维模式的加持,再配上强大的Artifacts功能,称它为「完全体o1」也绝不为过。有了这个提示词,Claude 3.5变得异常强大。

2025-10-15 18:27:43 138

转载 最新两篇论文,把Deep Research讲透了!

那么关于Deep Research背后更全面的技术栈都有哪些?前几天,阿里开源了Tongyi DeepResearch,热度很高,目前14.1k star了。(Gain-Beyond-RAG):相比“无脑 top-k RAG”的。:MT-GRPO 给“成功调用+返回含答案片段”即时 bonus;直接优化“端到端任务成功”,天然契合“工具-交互”研究场景。,面对开放、动态、复杂的科研任务时往往力不从心。“能自己找资料、写综述、做分析”的AI研究员。整合证据,生成结构清晰、事实可靠的报告。

2025-09-28 10:49:53 280

转载 下载量突破 22 万!MiniCPM-V 4.5 刚刚公布了最新技术报告!

尽管仅有 8B 参数规模,模型在视觉语言能力上超越了 GPT-4o-latest 等广泛使用的专有模型,以及 Qwen2.5-VL 72B 等强大的开源模型,成为 30B 参数以下性能最佳的开源多模态大模型。自 OpenAI 发布 GPT-4 以来,多模态大模型深刻地改变了人工智能研究和产业的基本范式,在理解和推理图文语义信息方面展现出革命性能力,但其庞大的参数量和高昂的计算成本,使其严重依赖云端高性能服务器部署。这一方法彻底摆脱了对外部解析器的依赖,杜绝了其引入的噪声和工程负担。

2025-09-26 20:22:02 185

转载 梁文锋参与的DeepSeek-R1论文登上 Nature封面,这具有什么意义?

梁文锋署名通讯作者!国外的 AI 企业,发表的是 Technical Report(技术报告),是 Model Card(模型卡),那都是吹嘘自己模型 SOTA 成绩的广告,而不是可复现、可验证的学术成果。相比于当初的预印本内容,Nature 版论文经过评审和修改,实验透明度更高,真正作为学术成果发布,增加了海量的技术细节,比如各阶段的流程图、GRPO 算法、奖励模型的设计、超参数等等。但这恰恰说明,R1-Zero 的方法是有范式价值的,是经得起时间检验的科研成果。任何对合成内容的接触都是偶然和间接的。

2025-09-21 17:22:28 176

转载 OpenAI发长篇论文:大模型幻觉的原因找到了!

论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf。最新Kimi-K2-Instruct-0905开源、Qwen3-Max-Preveiw发布,国产大模型越来越好!图 1:Is-It-Valid二分类视角——生成错误⇔把"-"判成"+"表1 提供了一些更复GPT-4o杂的幻觉示例:GPT-4o/(对1分/错0分)让模型不敢"交白卷"

2025-09-15 17:05:41 114

转载 姚顺雨离职OpenAI,开启下半场

他需要去做更有挑战的事情,去创业是很自然的。当然,从OpenAI离职也不一定非得创业,比如姚顺雨的导师Karthik Narasimhan,就在OpenAI呆了一年后,选择了离开,并去普林斯顿继续象牙塔科研了。众所周知,让一张白纸反复试错的效率极低,而在传统强化学习中,这种低效尝试却屡见不鲜:智能体通常要么被限制只做单一任务,比如下围棋,要么在庞大的动作空间中盲目探索。正如这本书所启发的那样,跨学科的眼光与对复杂信息的开放态度,似乎贯穿着姚顺雨的整个求学生涯,并逐渐形成一种个人的风格特质。

2025-09-12 18:01:18 220

转载 vLLM 推理引擎的核心优化技术及其工作流程

这种方法巧妙地结合了两种并行策略:专家并行用来处理 MoE 层的巨大专家数量,而数据并行则用来高效地处理非专家层的计算,从而在保证高吞吐量的同时,支持超大规模的 MoE 模型。这种混合并行方法将模型的两个维度都进行了切分:流水线并行切分了模型的层(垂直方向),而张量并行切分了每一层的权重(水平方向),从而能够服务那些规模巨大的模型。All-reduce 是一种高效的通信操作,它能让所有设备上的部分输出汇总到每个设备上,并求和,最终每个设备都拥有完整的输出结果,可以进行下一步的计算。

2025-09-05 12:53:27 262

转载 突发,Agentic新SOTA诞生!美团开源560B大模型

LongCat-Flash-Chat,这是一款non-thinking基础模型,在领先模型中表现极具竞争力,尤其在Agentic任务中表现出色,超过。为了实现先进的训练和推理效率,采用了捷径连接架构,扩大了计算-通信重叠窗口,实现了每秒超过 100 个token(TPS)的高效推理。LongCat-Flash,这是一款拥有 560B 总参数的强大且高效的语言模型,采用了创新的专家混合(MoE)架构。全面训练和扩展策略确保了稳定、高效的训练,而量身定制的数据策略则提升了模型性能。昨晚,美团入局大模型!

2025-08-31 16:17:01 99

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除