- 博客(1857)
- 收藏
- 关注
转载 九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代
在代码效率评估中,IQuest-Coder-V1-40B-Instruct在Mercury基准上达到83.6分(Pass@1)和95.3分(Beyond@1),表明其不仅能生成正确代码,还能产生运行时间高效的结果;在Text-to-SQL任务中,该模型在Bird基准上达到70.5分,在Spider基准上达到92.2分,显示出卓越的语义解析和查询生成能力。在代理编码任务中,IQuest-Coder-V1-40B-Loop-Instruct在SWE-Bench Verified上达到76.2。
2026-01-06 19:22:26
2
转载 CVPR 2025 新方法:小波+原型增强Transformer,像素级缺陷无处可藏
WPFormer通过巧妙融合小波分析的频域感知能力与原型学习的语义抽象能力,为像素级缺陷检测提供了一条新路径。这充分证明了其融合频域与空间域的双路径设计,在应对弱缺陷、复杂背景等挑战时的有效性与通用性。查询只需与这些数量远少于像素的原型进行交互,就能高效捕获关键信息,仿佛聚光灯直接打在了最重要的区域。在智能制造的流水线上,每一处微小的表面缺陷都可能影响最终产品的可靠性。另外,WPFormer提出的WCA和PCA模块设计精巧,具有极强的独立性和可移植性,非常适合作为“即插即用”模块应用于其他计算机视觉任务。
2026-01-02 14:44:39
26
转载 DeepSeek 发布新论文,提出全新 MHC 架构,有何创新与应用前景?
别被名字吓跑,这件事情的本质,是在挑战 AI 圈儿过去十年的绝对真理。但在动辄几千万美元的训练成本面前,多花点时间,换来的是模型性能的显著提升,和绝不炸机的安全感。这种脚踏实地理性的光芒,我觉得才是最美丽,最珍贵,最值得敬佩的。在 AI 这个行业里,最容易走的路就是大力出奇迹。但最难的路,是回头审视那些大家都习以为常的事物,去优化最底层的数学公式。训练大模型就像几百人排队玩传话游戏,原来的 ResNet 为了防止传话失真,允许后面的人直接听前面的喊声。不管外面如何喧嚣,传到下一层的信号,永远是干净稳定的。
2026-01-02 11:56:34
23
转载 用 RL 做 LLM 后训练:半年踩过的坑与心得
但 Corner Case 的覆盖恰恰是 RL 最大的魅力,相较于 SFT,RL 只需要准备好环境和 Questions,剩下的就无脑交给 GRPO 和 LLM 梭哈,它可以自动处理 OOD 和 Corner Cases。比如通过环境反馈加自然语言反思来合成数据,反思得到的轨迹的 logprob 是在有额外上下文的情况下获得的,和直接用 Question 推理的 logprob 是不一致的,所以重要性采样理论上不能直接用。如果非要很大的输出长度,就要非常小心超长轨迹和离群值,该过滤就过滤。
2025-12-28 18:30:10
14
转载 杨立昆赌上后半生,押注大模型必死!哈萨比斯誓将Scaling进行到底
在我看来,这完全是胡扯。这条路根本不可能走得通。在人们常用的计算理论类比中,人类大脑常被视为近似图灵完备的系统,Hassabis认为人脑和基于Transformer的基础模型,同样都是近似图灵机的系统。大约一周前,图灵奖得主、「深度学习之父」Yann LeCun在一期播客中「宣告」了大模型的「死刑」,直接把当下最主流的AI路线骂成了「胡扯」。因此,Hassabis认为人脑本就是一个宇宙级的「通用AI」,具备无限学习潜能,而人类文明创造力,则是大脑高度通用性的最强证明。
2025-12-24 17:59:35
53
转载 刚刚,AI 大神 Karpathy 2025 年度总结刷屏!
当然目前早期和现有的版本是 emoji 和 Markdown 这类东西,它们是装扮和排版文字的方式,用标题、粗体、斜体、列表、表格等让阅读更轻松。与 SFT 和 RLHF 这两个相对轻量的阶段不同,RLVR 的训练对象是客观的、无法被刷分的奖励函数,模型没法通过投机取巧来骗取高分,必须真正解决问题,因此可以进行更长时间的优化。注意,真正关键的区别不在于 AI 操作碰巧在哪里运行(云端、本地还是别处),而在于其他一切:那台已经开机、配置好的电脑,它的安装环境、上下文、数据、密钥、配置,以及低延迟的交互。
2025-12-20 16:21:18
49
转载 揭秘 AI 记忆、RAG 演进与自我进化的工程实践!
目前的很多 Agent 极其脆弱,本质上只是一个“大模型接口的封装”。在面对复杂业务时,它们缺乏对信息的“消化”能力——不知道什么该记入长期记忆,不知道如何组装短期上下文,导致任务执行混乱。在 2025 年的今天,我们必须承认,当我们要构建一个复杂的 AI 系统时,仅仅会写“你是一个 XX 专家”是远远不够的。:AI 不再是简单调用 API,而是理解工具的副作用与参数语义,实现真正的 Tool Manipulation。探讨在实际业务中,如何平衡记忆检索的“速度”与“深度”,实现信息的高效流转与智能组装。
2025-12-16 11:49:12
25
转载 AI顶会NeurIPS论文数,中国占半壁江山!黑马港科广亮眼
作为全球AI领域的年度最大学术盛事之一,今年的NeurIPS呈现出一种前所未有的撕裂感:一场会议,两个主场——一边是算力与资本的圣地硅谷的「后花园」,另一边则是由于签证壁垒而被迫形成的「平行宇宙」。而在OpenReview滚动的录取名单背后,一个更具历史意味的转折点正在浮现:清华大学,这所中国最顶尖的学府,正以一种不可阻挡的态势逼近长期的霸主谷歌。在LLM推理成本高企的背景下,千问团队提出了一种带有非线性和稀疏性的门控注意力机制,不仅解决了长文本处理中的「注意力陷阱」,更大幅提升了模型效率。
2025-12-15 17:46:49
49
转载 金山、Zilliz、腾讯、灵犀量子专家齐聚,揭秘 AI 记忆、RAG 演进与自我进化的工程实践
目前的很多 Agent 极其脆弱,本质上只是一个“大模型接口的封装”。在面对复杂业务时,它们缺乏对信息的“消化”能力——不知道什么该记入长期记忆,不知道如何组装短期上下文,导致任务执行混乱。在 2025 年的今天,我们必须承认,当我们要构建一个复杂的 AI 系统时,仅仅会写“你是一个 XX 专家”是远远不够的。:AI 不再是简单调用 API,而是理解工具的副作用与参数语义,实现真正的 Tool Manipulation。探讨在实际业务中,如何平衡记忆检索的“速度”与“深度”,实现信息的高效流转与智能组装。
2025-12-12 08:40:55
13
转载 通义千问凭借“门控注意力”斩获 NeurIPS 最佳论文奖!详解Gated Attention原理
此外团队还进一步发现了门控机制能消除注意力池(Attention Sink)和巨量激活(Massive Activation)等现象,提高了模型的训练稳定性,极大程度减少了训练过程中的损失波动(loss spike)。得益于门控机制对注意力的精细控制,模型在长度外推上相比基线得到了显著的提升。本文的成果耗费大量工作,只有利用工业规模的计算资源才能完成,而论文团队直接分享了他们的研究成果,这将增进社区对大型语言模型中注意力机制的理解,尤其是在LLM领域科学成果开放共享逐渐减少的背景下,这种做法非常值得称赞。
2025-12-11 12:45:39
187
转载 65页最新系统性综述把Deep Research讲透了
代表性的 DR系统 Gemini、OpenAI、Grok DR/Manus/SunaAI。的场景(科研调研、政策简报、竞品分析)里,它们常常“胡说八道”或“顾头不顾尾”。传统大模型靠静态参数知识或单次检索-生成(RAG)就能应付事实问答,但在。Deep Research 不是简单的“RAG Pro”,而是让大模型。可信度加权、多智能体辩论、RL 事实奖励;从“找答案”到“写综述”再到“发论文”,DR 正在把 AI 推向。多智能体并行,预算可控,零训练成本;:会规划、会反思、会质疑、会创新。
2025-12-04 15:18:45
38
转载 李飞飞和LeCun的世界模型之争
或许正是因为如此,在Marble自己的博客上,虽然屡屡提及「世界模型」与「导出高斯散射体、网格和视频」,但几乎完全没有提到机器人。所以,这类模型虽然没法像Marble那样生成精致的3D图像,看上去不那么「惊艳」,但它更像是在训练机器人的「大脑」。这难道不就是高斯Splat模型吗?Marble渲染「世界长什么样」,Genie 3展示「世界怎么变」,JEPA则探究「世界的结构是什么」。这类世界模型的任务,不是渲染精美的像素,是让机器人能提前想几步,学会在行动前预判世界的变化。
2025-11-29 13:24:21
31
转载 新鲜出炉!斯坦福2025 CME295课程免费公开
首先从Transformer基础讲起,包括 NLP 背景、分词、向量表示等基础概念以及Transformer架构。后续各讲分别深入探讨基于Transformer的。最后,给大家推荐AI+交叉学科的现有idea,如果你想在3-6个月内发一篇计算机SCI/CCF相关论文,一定不要错过!、LLM 的训练、调优、推理、赋予能动性、评估等方面,最后一讲聚焦于结论与未来趋势。:Transformer模型的核心,实现长距离依赖捕捉。:Transformer编码器-解码器结构的详细解析。分词(Tokenization)
2025-11-13 09:01:48
67
转载 李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
在漫长的人类历史中,我们共享的唯一三维世界是物理世界。随着空间智能世界模型在推理与生成能力上的不断增强,可以想见,在某些情况下,模型不仅能预测世界的下一状态,还能基于这一新状态,进一步预测实现目标所需的下一步行动。无论是孩子在沙滩上筑起的沙堡,还是他们在电脑上玩《我的世界》所创造的空间,这种基于空间的想象力构成了现实与虚拟世界中交互体验的核心。借助具备空间智能的模型,建筑师可以在动工之前快速可视化建筑结构,甚至漫步于尚未存在的空间中,从而以一种讲故事的方式,探索人类未来的生活、工作与聚会方式。
2025-11-11 17:59:57
78
转载 Claude 4.5 杀疯了,能一口气写出一万多行代码。。。。
他觉得AI 编程体验很像是处于 L2 阶段的自动驾驶:你给出方向(spec),平时让系统自动行驶,只有在复杂路段或偏离轨道时,才需要接管。卷编程速度和开发能力,人类肯定是卷不过 AI 的,而且差距会越来越大。这 4 个视频选的都是比较有代表性的实操案例,既有功能实现,也有技术选型与 AI 协作的思维模式升级,知识点一串多。首先,视频全都是最近录制的,非常新鲜,而且讲得比较细致,基本上就是把实操过程录下来了,方便跟练。」,有 4 个独立的实战案例视频,展示 AI 编程最佳实践。更夸张的是,它能连续敲出。
2025-11-10 16:17:06
35
转载 从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较
当然,位置嵌入已经从绝对嵌入演进到旋转嵌入(RoPE),多头注意力机制已基本被分组查询注意力机制所取代,而更高效的 SwiGLU 也取代了 GELU 等激活函数。此外,Kimi 2在MoE模块中使用了更多的专家,在MLA模块中使用了更少的头。Llama 4使用了分组查询注意力(GQA)而非多头潜在注意力(MLA),并且在MoE模块中使用了更少但更大的专家。Qwen3的密集模型采用了较深的架构(更多Transformer块),具有更多的层,而 Llama 3 是一种更宽的架构,具有更多的注意力头。
2025-11-09 16:59:10
300
转载 Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识
它直接在模型中间层注入随机状态,而非使用独立的全编码器。在训练过程中,编码器仍被使用一次,以帮助模型学会如何选取良好的隐藏状态,但它仅与网络的一部分协同工作。合成序列具有固定长度,包含一个由随机字母重复8次构成、位于随机位置的「目标」,以及由感叹号组成的独立同分布噪声,还有一个提示目标字母的提示语。这可能是一个重要节点,Transformer的思维方式被重塑,从「预测下一个词」迈向「思考如何表达」。第二个架构增加了随机状态Z,并在训练时使用额外的编码器网络来推断每个样本对应的隐藏状态。
2025-11-06 16:49:00
48
转载 全国首部AI智能体应用评估标准,现公开征集起草单位和个人!
标准为应用方的各类企业用户提供了一套系统的评估方法,有效化解“选型难、衡量难、优化难”的困境。,通过构建一套支持智能体规模化、高质量应用的评估基座,为各类企业及服务机构提供一致、可信的评估依据,填补当前智能体应用效果难以量化、跨系统对比缺失标准的核心空白。面对市场上多样的AI智能体,由于缺乏统一的“能力标尺”,企业难以科学评估其与自身业务场景的匹配度,导致投入巨大资源后,智能体却无法有效解决业务问题。传统的绩效指标难以适用,导致AI智能体的成效难以衡量,智能体投资的商业合理性也无法得到有效证明。
2025-10-30 09:30:31
92
转载 李沐:年度演讲谈智能体!
“没问题,John。如果最好的闭源模型(比如OpenAI)的API得分是90,但在你的应用中,通用能力测试得分必须是85。我们现在做的是Al电话销售员(Al telemarketer),也就是说,语音智能体扮演的是“电话推销员”的角色。我们学到的一个重要经验是,即使是游戏这种听起来很简单领域,也涉及大量遵循指令(instruction following)的问题。例如,这个游戏是科幻题材,时间设定在两千年后,而你的对话是随机的?“如果你的牙齿出现(具体)问题,(赔付是多少)” 这样的回答才是准确的。
2025-10-29 15:33:25
56
转载 小米最新大模型成果!罗福莉担任通讯作者!
不过,除了上下文不一致,MoE架构还涉及到路由选择不一致的问题——按照传统的解决方案,即便是重复的上下文,每一次计算,模型还是要重新选专家、激活专家。有意思的是,就在今年9月DeepSeek登上《Nature》的时候,罗福莉也出现在了作者名单,不过是以“北京独立研究者”的身份。他们的想法是,既然对于对相同的上下文,MoE的路由结果应该一样,那干脆,把推理阶段的路由掩码和前缀KVCache一起缓存起来。但稍有有个新问题,在这篇论文成果的单位注释中,罗福莉的单位没有被明确,她既不是北大的,也没有被归入小米。
2025-10-17 15:20:25
85
转载 18岁天才少年,登上Nature封面!
2022年加入DeepSeek,并参与了DeepSeek-Coder、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-V3、DeepSeek-R1等几乎所有重要项目的研发。年仅18岁的天才少年涂津豪作为作者之一,以实习生身份参与其中,他的故事从高中生到Nature作者,堪称励志传奇。凭借Claude的强大性能,结合Thinking Claude思维模式的加持,再配上强大的Artifacts功能,称它为「完全体o1」也绝不为过。有了这个提示词,Claude 3.5变得异常强大。
2025-10-15 18:27:43
98
转载 最新两篇论文,把Deep Research讲透了!
那么关于Deep Research背后更全面的技术栈都有哪些?前几天,阿里开源了Tongyi DeepResearch,热度很高,目前14.1k star了。(Gain-Beyond-RAG):相比“无脑 top-k RAG”的。:MT-GRPO 给“成功调用+返回含答案片段”即时 bonus;直接优化“端到端任务成功”,天然契合“工具-交互”研究场景。,面对开放、动态、复杂的科研任务时往往力不从心。“能自己找资料、写综述、做分析”的AI研究员。整合证据,生成结构清晰、事实可靠的报告。
2025-09-28 10:49:53
138
转载 下载量突破 22 万!MiniCPM-V 4.5 刚刚公布了最新技术报告!
尽管仅有 8B 参数规模,模型在视觉语言能力上超越了 GPT-4o-latest 等广泛使用的专有模型,以及 Qwen2.5-VL 72B 等强大的开源模型,成为 30B 参数以下性能最佳的开源多模态大模型。自 OpenAI 发布 GPT-4 以来,多模态大模型深刻地改变了人工智能研究和产业的基本范式,在理解和推理图文语义信息方面展现出革命性能力,但其庞大的参数量和高昂的计算成本,使其严重依赖云端高性能服务器部署。这一方法彻底摆脱了对外部解析器的依赖,杜绝了其引入的噪声和工程负担。
2025-09-26 20:22:02
134
转载 梁文锋参与的DeepSeek-R1论文登上 Nature封面,这具有什么意义?
梁文锋署名通讯作者!国外的 AI 企业,发表的是 Technical Report(技术报告),是 Model Card(模型卡),那都是吹嘘自己模型 SOTA 成绩的广告,而不是可复现、可验证的学术成果。相比于当初的预印本内容,Nature 版论文经过评审和修改,实验透明度更高,真正作为学术成果发布,增加了海量的技术细节,比如各阶段的流程图、GRPO 算法、奖励模型的设计、超参数等等。但这恰恰说明,R1-Zero 的方法是有范式价值的,是经得起时间检验的科研成果。任何对合成内容的接触都是偶然和间接的。
2025-09-21 17:22:28
147
转载 OpenAI发长篇论文:大模型幻觉的原因找到了!
论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf。最新Kimi-K2-Instruct-0905开源、Qwen3-Max-Preveiw发布,国产大模型越来越好!图 1:Is-It-Valid二分类视角——生成错误⇔把"-"判成"+"表1 提供了一些更复GPT-4o杂的幻觉示例:GPT-4o/(对1分/错0分)让模型不敢"交白卷"
2025-09-15 17:05:41
89
转载 姚顺雨离职OpenAI,开启下半场
他需要去做更有挑战的事情,去创业是很自然的。当然,从OpenAI离职也不一定非得创业,比如姚顺雨的导师Karthik Narasimhan,就在OpenAI呆了一年后,选择了离开,并去普林斯顿继续象牙塔科研了。众所周知,让一张白纸反复试错的效率极低,而在传统强化学习中,这种低效尝试却屡见不鲜:智能体通常要么被限制只做单一任务,比如下围棋,要么在庞大的动作空间中盲目探索。正如这本书所启发的那样,跨学科的眼光与对复杂信息的开放态度,似乎贯穿着姚顺雨的整个求学生涯,并逐渐形成一种个人的风格特质。
2025-09-12 18:01:18
193
转载 vLLM 推理引擎的核心优化技术及其工作流程
这种方法巧妙地结合了两种并行策略:专家并行用来处理 MoE 层的巨大专家数量,而数据并行则用来高效地处理非专家层的计算,从而在保证高吞吐量的同时,支持超大规模的 MoE 模型。这种混合并行方法将模型的两个维度都进行了切分:流水线并行切分了模型的层(垂直方向),而张量并行切分了每一层的权重(水平方向),从而能够服务那些规模巨大的模型。All-reduce 是一种高效的通信操作,它能让所有设备上的部分输出汇总到每个设备上,并求和,最终每个设备都拥有完整的输出结果,可以进行下一步的计算。
2025-09-05 12:53:27
194
转载 突发,Agentic新SOTA诞生!美团开源560B大模型
LongCat-Flash-Chat,这是一款non-thinking基础模型,在领先模型中表现极具竞争力,尤其在Agentic任务中表现出色,超过。为了实现先进的训练和推理效率,采用了捷径连接架构,扩大了计算-通信重叠窗口,实现了每秒超过 100 个token(TPS)的高效推理。LongCat-Flash,这是一款拥有 560B 总参数的强大且高效的语言模型,采用了创新的专家混合(MoE)架构。全面训练和扩展策略确保了稳定、高效的训练,而量身定制的数据策略则提升了模型性能。昨晚,美团入局大模型!
2025-08-31 16:17:01
81
转载 英伟达新研究:小模型才是智能体的未来!
说起来,小模型就像Unix“一个程序只做好一件事”(Do One Thing and Do It Well)的设计哲学,把复杂系统(大模型)拆成小、专一、可组合的模块(小模型),每个模块做好一件事,然后让它们协同完成更大任务。最后,也是争议的核心——虽然小模型部署门槛正在下降,但大模型已经占先,行业惯性让创新仍集中在大模型,转型未必会真的降本增效。而在GPU调度中,通过优先调度小模型的低延迟请求,同时预留部分资源应对偶发的大模型调用,就能实现更优的。随后,选择合适的小模型,并匹配相应的GPU分配策略。
2025-08-29 19:53:12
93
转载 科学界论文高引第一人易主!AI站上历史巅峰
它以理解学习世界为核心目标,而非在世界中采取行动,通过透明化外部推理,对问题提供可验证的真实答案,“可用于加速科学发现、为Agent型AI系统提供监督,并深化大家对AI风险及其规避方法的理解”。排在第二的就是三巨头2015年共同发表的《Deep learning》,这篇论文不仅系统总结了深度学习的发展历程,还深入剖析了其理论基础、核心算法和广泛应用,被视为深度学习领域的“圣经”。毕竟,当一个人的论文被全世界数十万次引用,或许就不仅仅只是学术荣耀那么简单,而更有可能代表了时代的注脚。
2025-08-26 15:01:04
81
转载 刚刚,Meta发布了全新开源视觉模型DINOv3
为了应对这一问题,研究团队提出了“Gram anchoring”方法,即通过将学生模型的patch Gram矩阵逼近早期训练阶段表现优异的教师模型的Gram矩阵,来保持patch间的相对相似性,而不限制特征本身的自由表达。最后,由于DINOv3在最初训练时使用了相对较低的分辨率(256×256),为了让模型适应高分辨率的图像场景,研究团队在训练后增加了一个“高分辨率适应步骤”,从而让模型在学会处理更大尺寸图像的同时,还能保持性能稳定。
2025-08-16 16:39:38
213
转载 就在刚刚,GPT-5正式发布!已达博士水平,人人都能免费使用!
看到日程后GPT-5可以自动进行一些助理级工作,比如发现未回复的邮件等。在语音对话方面,现在不仅可以让GPT-5充当外语老师,还能定制语音、让GPT-5根据你的需求来灵活教学,比如调整语速。在写作方面,GPT-5相比前代也有明显提升,它不再局限于模版化的表达,而是能够根据上下文生成富有个性与情绪的表达,GPT-5看到用户提示词后再判断是否执行,同样的提示在不同语境下,GPT-5可能有不同的执行结果。同时在API平台上,推出了GPT-5、GPT-5 nano、GPT-5 mini三种模型选择。
2025-08-08 09:23:43
128
转载 李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
举个例子就是,如果想要教一个徒弟同时会拳脚功夫,但师傅一次又教不了,那就同时教两个徒弟,一个学打拳,一个学踢腿,然后让他们俩天天互相打,打着打着两个就都会拳脚功夫了。最终,这个多模态模型就完成了,不仅可以完成简单的文本转语音,还能实现更复杂的任务,比如让它写一首歌并唱出来,再加上配乐。然后要让模型很好地理解和生成声音,就需要利用模型的文本空间,将语音的语义尽量地映射回文本,当中需要大量的数据支持。传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。
2025-07-24 17:09:48
116
转载 OpenAI创始人力推,火爆全网的Vibe Coding,国内第一本书来了!(免费送书)
本书凝结着他们深耕行业的观察洞见、躬身实践的经验沉淀与传道授业的教学智慧,堪称AI时代编程教育的思想结晶。然而,真正的变革需要让更多人了解并掌握这一创新方式,因而,他们合著了本书,希望通过系统化的知识梳理与清晰易懂的阐述,将Vibe编程的理念和方法传递给更广泛的群体。在过去的一年里,从记者到老师,从产品经理到家庭主妇,无数零编程基础的普通人正在用Vibe编程创造能解决实际问题的应用。你无须记忆烦琐的语法规则,也无须深陷复杂的代码调式,只需通过自然语言与AI对话,即可将脑海中的灵感转化为可运行的应用。
2025-07-24 17:09:48
115
转载 AI 大模型全套学习资料免费领取
包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。明确学习方向,2025年 AI 要学什么,这一张图就够了!【大厂 AI 岗位面经分享(107 道)】【24 套最新技术大会 AI 分享PPT】【AI 大模型面试真题(102 道)】【26 套 AI 大模型行业研究报告】【AI 大模型面试题 300 道】【LLMs 面试真题(97 道)】【AI学习路线图(2025版)】【GeekGI 知识库】扫码免费领取全部内容。
2025-07-21 08:41:02
72
转载 小作坊的强化之路
注意下图中的紫线,应该是在 no mask stage1 基础上做了 stage2 (更长 response_len)训练的模型,说明第一阶段学到的较短的 response 完全没影响模型的上限,第二阶段的 response_len 和 accuracy 仍然能稳步提升。(这里其实可以更细致的探究一下,两份数据的 response 多样性到底差别多大,比较一下 response 的熵的平均值,也许能给出一个近似的拟合公式:“熵在多大的区间内适合多大的 loss 系数”)。
2025-07-20 10:48:33
88
转载 一篇Graph+AI Agents最新技术综述
例如,A-MEM 通过动态索引和链接创建相互连接的知识网络,Zep 通过时间感知的层次化知识图谱引擎动态整合对话数据,HippoRAG 和 LightRAG 采用动态增量图更新策略,KG-Agent 引入 LLM 进行知识图谱更新,InstructRAG 采用 RL 代理进行图维护。:图技术帮助代理更高效地管理和调用大量工具,通过构建工具图和优化工具调用路径,减少令牌消耗,提高工具使用的准确性和效率。图用于人工智能代理:图和图学习在增强代理核心功能(包括代理规划、执行、记忆和多代理协调)中的作用和潜力。
2025-07-04 13:14:52
92
转载 干翻 GPT-4V 的面壁小钢炮,被《Nature》收录了!
此次论文提及的 MiniCPM-V 模型是面壁智能于 2024 年 5 月发布的端侧多模态大模型,该模型仅以 8B 小参数,在高分辨率图像识别、光学字符识别(OCR)、多语言交互、可信行为等方面展现了出色性能,创造了当时端侧模型中的最佳多模态综合成绩与最佳运行效率水平。今年 1 月,面壁智能再次全方位升级了模型能力,并延续以小博大、高效低成本的优势,发布了行业首个端侧全模态流式模型——面壁小钢炮 MiniCPM-o 2.6,「持续看、实时听、自然说」等多项关键能力均为业界首创,能力全面跻身国际领先水平。
2025-07-03 15:33:40
112
转载 重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
例如,在 RLVR pipeline 训练下,Qwen2.5-7B-Base 的整体准确率从 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 准确率从 0.27 提升至 0.62(2.30 倍),这两个模型在 ROLL 的支持下均展现了稳定且一致的准确率提升,且未发生模型崩溃等异常现象,展现了 ROLL 极佳的稳健性和实用性。为了在生成阶段对每个提示词样本的生命周期进行细粒度的管理,该团队提供了 Rollout 调度器,可以简化响应生成、环境交互和奖励计算之间的流程编排。
2025-07-01 17:02:13
168
转载 Doc2X: 高精度高性价比文档解析神器
Doc2X 提供 RESTful API 与 SDK 工具包,支持多种开发语言与框架,让您轻松将文档处理功能嵌入现有系统,方便快捷地实现将 PDF、扫描件、图片等多种格式的文档精准转换为 Markdown、LaTeX、HTML、Word 等结构化或半结构化格式的能力。当然,除了提供了快速集成的 API 之外,Doc2X 还提供了友好的操作界面,可以让你在页面上快速完成文档解析,解析完成之后可以对照着原文档进行编辑,确保准确性。接口轮询结果,使用的是阿里云的oss,具体速度取决于您的网速(
2025-06-24 13:59:26
778
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅