- 博客(429)
- 收藏
- 关注
原创 Hermes Agent vs. OpenClaw终极对决
2026年,如果说 OpenClaw 是 Agent 界的“Spring Boot”(极致的规范化、企业级),那么 Hermes Agent 就是 Agent 界的“Linux OS”(底层持久化、可进化、生态繁荣)。当用户交给 Hermes 一个复杂任务(如:“抓取某个特定网站的最新文章,总结后发到我的 Notion”),Hermes 首先通过 ReAct 循环使用基础工具(Browser, Shell, HTTP)跌跌撞撞地完成任务。新的记忆和新学习的技能作为不可变的后缀追加。
2026-04-15 23:43:20
182
原创 SkillClaw:让大模型 Agent skill在多用户生态中实现群体进化的框架
随着大模型应用步入深水区,基于 LLM 的智能体(Agent)正从单一的“沙盒玩具”转变为处理真实世界复杂任务的生产力工具。然而,现有的 Agent 系统通常面临一个致命瓶颈——部署即固化。为了解决这一问题,最近有一篇新论文**《SkillClaw: Let Skills Evolve Collectively with Agentic Evolver》**提出了一种多用户生态 Agent 群体进化框架。
2026-04-11 23:06:20
63
原创 重构大模型长链推理SFT的泛化机制:Rethinking Generalization in Reasoning SFT
许多研究指出,使用长逻辑链进行 SFT 虽然能提升同分布的数学成绩,但在跨领域(Out-of-domain, OOD)任务上表现孱弱,甚至会引发通用能力的灾难性遗忘(Catastrophic Forgetting)。高质量的 CoT 数据,其价值在于教会模型“如何思考(How to think)”,而不是“思考什么(What to think)”。许多被报告的“SFT 泛化失败”,实际上是实验设置缺陷(如:训练轮数不足、数据质量低劣、基座模型容量太小)导致的伪像(Artifacts)。
2026-04-11 22:40:42
192
原创 跨越RAG的局限:深度解析 Karpathy 的 LLM-Wiki 智能体知识库架构
随着大型语言模型(LLM)的普及,检索增强生成(RAG)几乎成为了构建企业和个人知识库的默认范式。然而,RAG 在处理跨文档全局推理、知识复利以及上下文碎片化方面存在难以克服的结构性瓶颈。最近,前 OpenAI 科学家 Andrej Karpathy 提出了一种名为。
2026-04-07 23:20:21
374
原创 Apple LLM自蒸馏新论文:Simple Self-Distillation
概率分布呈现出**“尖峰(Spiky)”**特征:一个或少数几个正确的 Token 占据了绝大部分概率质量,而其余 Token 形成了一条长长的“干扰尾巴(Distractor Tail)”。通过 SSD,模型在物理层面被重塑:在需要精确的地方变得像剃刀一样锋利,在需要发散的地方保留了开阔的视野。在当前的大模型(LLM)研发中,针对复杂推理和代码生成任务,学术界和工业界普遍陷入了对**“高质量对齐数据”在这里,概率分布是**“平缓的(Flat)”**,散布在多个可行的分支(Branches)上。
2026-04-06 09:38:44
52
原创 从Claude Code代码泄漏到AI Agent逻辑设计VS龙虾OpenClaw
近期 Anthropic的Claude Code 的源码泄露事件,为业界提供了一份价值连城的“活体解剖指南”。本文将深入对比高内聚的 Claude Code 架构与高解耦的 OpenClaw 通用框架,从系统执行逻辑、上下文管理、OS 沙盒交互以及记忆提纯等维度,探讨次世代 AI Agent 在模型推理与工程落地中的创新点与代码实现逻辑。
2026-04-05 23:16:27
24
原创 将 Agent skill内化于模型参数的上下文:SKILL0
今天一起看下浙大、美团与清华大学联合出的论文 《SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization》
2026-04-04 17:31:02
299
原创 MinerU-Diffusion:OCR大升级
随着多模态大模型(如 Qwen-VL, LLaVA 等)的爆发,文档 OCR 已经从传统的“检测+识别”模块化流水线,演进为端到端的序列生成任务(如 MinerU2.5, PaddleOCR-VL)。为此,作者设计了一套**以不确定性驱动的两阶段课程学习(Two-Stage Curriculum Learning)**框架,这是极具工程落地价值的策略。如何证明 AR 模型的成功不是依靠真正的“视觉识别(看懂了)”,而是依赖“语言模型瞎猜(脑补了)”?是任务相关指标(如表格的 TEDS,公式的 CDM)。
2026-03-30 23:41:16
332
原创 ProactiveBench突破被动问答:更好的视频大模型评估benchmark
平均每道题的参考答案覆盖时间跨度从 5.51 秒(WEB)到 29.20 秒(EGO),甚至达到 121.03 秒(TV),充分保证了动态评估(PAUC)时坐标轴的宽阔度,避免了退化为静态 QA。:这些模型受限于训练算力和数据规模(往往只基于相对较弱的 Backbone 进行微调),导致其虽然在“交互时序架构”上是对的,但在绝对的“视觉理解特征”上落后太多。备注:开源模型往往难以遵循这种复杂的多步指令,因此在实际评测时,对开源模型采用了简化的策略,仅询问“当前片段是否包含足够信息”。
2026-03-24 23:24:40
314
原创 【读论文】双工语音交互中的轮次检测方案Easy Turn
在人机交互的演进史中,语音对话系统(Spoken Dialogue Systems, SDS)正经历从“半双工(对讲机模式)”向“全双工(自然对话模式)”的深刻变革。在 Easy Turn 提出之前,构建一个具备 Turn-Taking 能力的对话系统,通常需要面对“精度、速度、数据开源”的“不可能三角”。——系统必须精准判断用户是已经说完(该机器回答了)、还在思考(机器需要继续倾听)、给出了简短附和(机器应继续说),还是要求机器闭嘴。(词错误率为0)的样本才被采纳,确保了音字对齐的绝对完美。
2026-03-24 23:08:36
181
原创 从技术报告看Kimi K2.5 原生多模态与 Agent Swarm 架构分析
作为大热门,Kimi K2.5在 SWE-Bench (76.8%)、AIME 2025 (96.1%) 以及多项 Agent 基准上屠榜,今天一起来看下它的技术报告。
2026-03-21 21:39:03
222
原创 小龙虾升级MetaClaw:在真实世界中的持续进化的Agent
随着大语言模型(LLM)的飞速发展,基于 LLM 的智能体(Agents)已经能够处理复杂的多步任务、调用外部工具并操控计算机(如 OpenClaw、SWE-agent 等)。从算法上看,它优雅地解决了 Continual RL 中的“陈旧奖励”难题,用严格的数据隔离版本控制(Skill Generation Versioning),实现了外挂记忆与内化参数的同步进化。一个典型的场景是:用户前一周可能在使用 Agent 处理繁琐的本地文件系统操作,下一周的需求可能就变成了协调多个即时通讯工具的工作流。
2026-03-21 20:45:58
77
原创 Kimi新架构得马斯克点赞:解析注意力残差Attention Residuals
自 2015 年 ResNet 提出以来,残差连接(Residual Connections,hlhl−1fhl−1hlhl−1fhl−1一直是深度神经网络的基石。在当前的大语言模型(LLM)中,结合 PreNorm 的残差连接构建了极佳的“梯度高速公路”,使得训练数百层的 Transformer 成为可能。然而,这种**“固定且均匀的加法累积”**真的完美吗?随着模型深度的增加,无权重的累加会导致隐藏状态的范数以OLO(L)OL。
2026-03-19 00:11:02
420
1
原创 TTS新高度:Fish Audio S2
由于 Dual-AR 的 Slow AR 本质上就是一个文本 LLM(Qwen3-4B),它的自回归计算完全可以利用 SGLang 的 Continuous Batching, Paged KV Cache 和 CUDA Graph。在生成式 AI 时代,高质量的文本转语音(TTS)技术已经从传统的“机械朗读”演变为“具备情感和指令遵循能力的语音交互”。这保证了模型在预训练时学到的东西,正是 RL 阶段要求它优化的东西,堪称教科书级的工程设计。的推理优化,将端到端流式 TTS 的 RTF 压榨到了惊人的。
2026-03-15 20:37:42
217
原创 【读论文】对话即学习的小龙虾openclaw升级版--智能体的异步在线强化学习方案
然而,现有的 Agentic RL 系统(如传统的 RLHF/PPO 流程)通常依赖于离线收集的静态数据集,或者需要人工标注的标量奖励,无法将这些在线的、活生生的交互数据转化为模型进化的养料。现有的 PRM(过程奖励模型)大多局限于拥有绝对客观真理的数学推理(如 Math-Shepherd),而在真实的 Agent 交互中,这种密集的步骤级信用分配(Credit Assignment)一直被忽视。用户的重新提问代表“不满意”,测试用例的 Pass 代表“成功”,Error Trace 代表“失败”。
2026-03-15 15:09:29
353
原创 【读论文】小模型Agent调用工具能力如何增强--微软研究院的ATLAS架构
对于前沿千亿/万亿参数大模型,它们依赖庞大的上下文窗口和极致的参数规模来“生吞”所有工具的 Schema(描述文件),并维持长周期的多轮对话状态。框架,它给出了一套极其优雅的工程与算法解法: 通过“按需加载上下文”、“代码级状态编排”以及“基于量规(Rubric)的强化微调”,ATLAS 使得一个仅。系统会拉取 MCP Server 的 JSON Schema,通过一次离线的 LLM 脚本,将其映射为标准的 Python 函数。当 Agent 生成的 Python 代码报错时,如果是普通的。
2026-03-11 20:47:13
57
原创 AGENTVISTA:面向多模态Agent的新benchmark
AGENTVISTA 定义了“视觉驱动的长程混合工具使用(Vision-centric Long-horizon Hybrid Tool Use)”这一新范式。视觉细节极度丰富:需要从杂乱的室内照片中识别特定的地板纹理、门框位置。混合工具链:需要交替使用(找同款)、Web Search(查参数)、(计算面积和价格)。验证性(Verifiability):答案必须是客观的、唯一的(如具体的金额或型号),而非开放式生成。这是一个典型的 ReAct 风格的工具集,涵盖了感知、检索和计算。工具名称。
2026-03-08 22:30:43
52
原创 关于统一多模态模型的“理解-生成”悖论--UniG2U-Bench来解决
G2U(Generation Helps Understanding)并非指简单的多任务学习,而是指在推理过程中,模型通过生成中间视觉产物(Visual Artifact)来辅助最终的判别或问答。形式化地,对于一个输入元组xVTQxVTQ(视觉上下文、文本上下文、查询),目标是输出答案yyy。纯理解模型(Base VLM):直接映射yAnsx∅yAnsx∅。统一模型(UMM):可以引入中间生成步骤。
2026-03-05 22:46:15
44
原创 大模型对齐的Benchmark准吗?看看腾讯混元的RubricBench
在大语言模型的对齐技术演进中,奖励模型被誉为“指南针”。从早期的标量 RM(Scalar Reward Model),到 GPT-4 引领的生成式 RM(LLM-as-a-Judge),工业界一直在寻找更精准、更可解释的评估范式。当前的趋势正由“直觉式打分”向“规则导向评估(Rubric-Guided Evaluation)”演进。这种范式要求模型在打分前,先根据指令生成一套细粒度的核查清单(Checklist/Rubric),将模糊的“好坏”转化为可验证的“是否满足约束”。
2026-03-04 23:38:05
257
原创 Qwen到Qwen3.5实现能力跃迁了吗
在 LLM 的发展史上,Qwen系列的迭代史就是一部**从“堆参数”到“提纯智能”**的教科书级演进史。等经典 Dense 尺寸为切面,横向拉通 Qwen-1、1.5、2、2.5 及 3.x 系列,深度剖析其在结构设计、训练方法及数据构成上的质变,并反向论述 Scaling Law 在新范式下的修正公式。Qwen 系列的架构一直遵循“实用主义”,在 Transformer Decoder-only 的基座上进行了极其实用的微调。数据量的线性增长,带来了性能的指数级飞跃。到了 Qwen-2.5/3 时代,
2026-03-03 22:53:03
61
原创 全模态原生 AI Agent 的架构演进:OmniGAIA 与 OmniAtlas
今天一起来看下关于一篇关于全模态benchmark和训练范式的论文《OmniGAIA: Towards Native Omni-Modal AI Agents》。在过去的一年中,多模态大语言模型MLLMs取得了长足进步。模型大多停留在“感知(Perception)”层面,而缺乏在复杂全模态环境下的“行动(Agency)”能力。大多数现有模型(如早期的 LLaVA 或 Qwen-VL)主要处理“视觉-语言”或“音频-语言”的双模态交互。
2026-03-02 21:58:06
798
原创 【RAG优化】QRRanker:LLM 重排模型的范式转移
最近看到一篇RAG reranker优化的论文,今天一起看下。在 Transformer 架构中,并非所有的注意力头(Attention Head)都承担相同的功能。先前的研究发现,LLM 中存在一类特殊的头,被称为。当我们将输入模型时,这些 QR Heads 的注意力权重会显著地集中在与 Query 相关的 Context 片段上。简单来说,模型的“目光”看向哪里,哪里就是答案。# 加载基座模型 (如 Qwen2.5-4B)
2026-02-26 13:18:19
41
原创 Mobile-O:端侧多模态“理解与生成”大一统的架构
在多模态大模型爆发的今天,我们见证了 各种巨型参数量模型在“理解”与“生成”双向能力上的惊人表现。然而,这种能力通常伴随着巨大的算力代价——动辄数十亿(B)甚至数百亿参数,必须依赖昂贵的 GPU 集群。传统方法训练时,理解任务(Image -> Text)和生成任务(Text -> Image)是分开的样本。:不同层包含不同粒度的语义(浅层偏语法/细节,深层偏语义/抽象),融合后能提供更丰富的生成条件。为了让模型跑在 iPhone 上,仅仅模型小是不够的,还需要深度的工程优化。
2026-02-24 21:44:17
1101
原创 主流语音端到端大模型SpeechLM技术综述:架构、可控性与工程实践
2024年GPT-4o语音模式的发布标志着语音交互进入端到端(End-to-End)时代,今天系统梳理了当前13个代表性端到端语音大模型,从五大架构范式、全双工交互机制、System Prompt可控性、推理延时优化、音色控制等维度展开深度技术对比。尝试"可控性分层模型"(L0-L5),分析全双工自然度与指令遵循之间的核心矛盾及其解决路径,并结合代码示例与工程实践,为语音Agent的产品化选型提供参考框架。
2026-02-22 10:44:01
185
原创 为Agent应用而生的Qwen3.5
这类说明非常“工程化”。这表明 Qwen3.5 不只是“会工具调用”,而是已经围绕 Agent 的几个核心场景(搜索、工具编排、代码执行)形成了相对完整的模型+生态组合。这一点很关键:很多模型“会调用工具”,但不一定适合长期、复杂、可恢复的 Agent 工作流。换句话说,Qwen3.5 不是“先做一个大模型,再顺便拿去做 Agent”,而是已经在结构、训练和运行时层面为 Agent 做了适配。这点比单纯分数更有参考价值,因为生产系统里 Agent 成败往往决定于“上下文治理”,不是“单轮回答能力”。
2026-02-21 10:34:41
412
原创 Qwen3.5:原生多模态智能体
今天一起看下最新发布的Qwen3.5 系列模型,旗舰模型 Qwen3.5-397B-A17B 以 397B 总参数、仅 17B 激活参数的超稀疏 MoE 架构,在推理、编码、多模态理解与智能体任务上达到sota,同时将推理成本降低约 60%。我们从架构设计、注意力机制创新、训练流程、强化学习算法、推理优化及工程实现等维度,对 Qwen3.5 的核心技术进行分析。
2026-02-21 10:09:15
520
原创 MiniMax新年SOTA:MiniMax-M2.5与Linear Attention架构
MiniMax 的核心壁垒在于其底层算子的实现(通常基于 CUDA/Triton)。它解决了线性注意力在 FP16/BF16 下的累积误差问题。实现逻辑推演在计算StSt−1KtTVtStSt−1KtTVt时,如果序列极长,数值会无限累加导致溢出。
2026-02-19 23:54:47
1040
原创 小钢炮MiniCPM-SALA 混合注意力架构与低成本训练范式
在 MMLU, HumanEval, GSM8K 等标准榜单上,MiniCPM-SALA 与同等规模的 Full Attention 模型(如 Qwen2.5-7B, MiniCPM-4.1)持平甚至略优。,在保留全注意力模型(Full Attention)通用能力的同时,将推理速度提升 3.5 倍,并将显存占用压缩至能在单张 A6000D 上跑通 1M Context。在 SALA 中,Linear 层通过维护一个固定大小的状态。MiniCPM-SALA 的成功不仅是一个架构的创新,更是一种。
2026-02-17 16:41:58
66
原创 【论文解读】具身智能中的 Scaling Limit:原生多模态模型的缩放定律与架构范式演进
在深入 Scaling Laws 之前,我们需要形式化定义两种架构的计算成本。定义:模型不使用独立的视觉编码器。图像被切分为 Patch,线性投影后直接作为 Token 进入 Transformer Decoder。文本和图像 Token 在第一层就开始交互。参数量 (NNN:仅指 Transformer Decoder 的参数。计算量 (CCCC≈6NDC≈6ND,其中DDD是总 Token 数(文本+图像)。定义:保留独立的 Vision Encoder(参数量Nv。
2026-02-16 21:32:24
833
原创 【读论文】Agent复杂任务大开销的解法:Unsupervised Hierarchical Skill Discovery
在强化学习(RL)领域,尤其是面对 Minecraft 或 Craftax 这样高维、长视距(Long-Horizon)的任务时,智能体往往面临着巨大的探索难题。人类解决复杂问题时,不会思考每一毫秒肌肉如何收缩(Primitive Actions),而是基于“收集木头”、“制作镐”、“挖掘石头”这样的**分层技能(Hierarchical Skills)**进行规划。语法归纳(Grammar Induction)**相结合,从未标注的演示轨迹中提取出具有语义意义的多层级技能结构。HiSD 采用了基于。
2026-02-14 16:55:36
101
原创 【读代码】GLM-OCR 核心架构与工程分析
在传统的 OCR(光学字符识别)工程链路中,我们习惯于“检测(Detection)- 识别(Recognition)- 版面分析(Layout Analysis)”的串行流水线。GLM-OCR 使用了一个两层的 MLP(多层感知机)作为 Projector,甚至包含了一些卷积层(Conv2d)用于 Token 的下采样(Pooling)。GLM-OCR 沿用了 GLM-4V 的基础架构,但在视觉编码器与语言模型的连接层做了针对性优化,以适应细粒度的文档特征。今天一起看下智谱的OCR模型GLM-OCR。
2026-02-10 13:03:31
75
原创 【读论文】端侧MLLMs效率大提升:MiniCPM-V 4.5
在 Post-Training 阶段,MiniCPM-V 4.5 并没有盲目追求 OpenAI o1 式的“长思维链(Long CoT)”,而是选择了一条**“混合推理(Hybrid Reasoning)”**的路线。的模型,它在 OpenCompass 等权威榜单上超越了 GPT-4o-latest 和 Qwen2.5-VL-72B,同时在视频理解任务上将推理时间压缩至 SOTA 模型的。,通过在图像上施加不同程度的“腐蚀(Corruption)”,强迫模型在“看清字”和“猜出意”之间动态切换。
2026-02-07 23:19:38
86
原创 【读论文】腾讯姚顺雨新年首篇:重塑LLM上下文能力评估
在深入架构之前,我们需要厘清核心概念的区别,这是理解 CL-Bench 价值的前提。维度核心目标学习任务的格式或浅层模式学习上下文中包含的新知识规则或逻辑依赖来源依赖预训练知识进行推理必须忽略预训练知识,仅依赖上下文典型场景阅读全新产品手册、判决虚构法律案件、分析实验数据复杂度低(主要是模式匹配)高(涉及归纳、演绎、模拟)Context Learning 的本质:它模拟了人类在面对一个全新领域(如一套从未见过的编程语言文档、一个虚构国家的法律体系)时,通过阅读文档迅速掌握规律并解决复杂问题的能力。
2026-02-05 22:10:37
804
原创 英伟达PersonaPlex:端到端语音大模型如何做到音色与角色统一
在语音 AI 的进化树上,我们经历了从级联系统(ASR-LLM-TTS)到端到端语音模型的跨越。然而,现有的全双工模型虽然解决了实时打断和自然交互的延迟问题,却陷入了“身份固化”的困境——无法灵活定制说话人的音色与角色设定。
2026-02-04 10:51:45
94
原创 Step-Audio-R1:语音模态的Scaling Law
在文本(LLM)和视觉(VLM)领域,OpenAI o1 系列模型的出现确立了一个核心范式:Test-Time Compute Scaling(测试时计算扩展)。即通过更长的思维链(Chain-of-Thought, CoT)进行深思熟虑,可以显著提升模型处理复杂逻辑任务的能力。然而,这一“Scaling Law”在音频领域却长期失效,甚至出现了**“倒挂”现象**。现有的音频大模型(Audio LLMs)往往在没有推理过程直接回答时表现更好,一旦引入长思维链,性能反而下降。Step-Audio-R1 的发
2026-02-02 22:46:34
57
原创 百川新开源的医疗大模型Baichuan-M3
在去年的AI 浪潮中,尽管通用大语言模型在各项基准测试中屡创新高,但在真实的医疗临床场景中,它们依然面临着巨大的“落地鸿沟”。传统的医疗 QA(问答)模型往往陷入**“静态应答”**的陷阱——用户输入一组症状,模型输出一个概率最高的诊断。然而,真实的医学不是简单的模式匹配,而是一个**“信息不完备下的动态决策过程”**。医生需要通过多轮问诊(Clinical Inquiry)主动获取关键信息,构建鉴别诊断(Differential Diagnosis),排除高危风险,最后才做出判断。百川智能发布的。
2026-02-01 23:33:41
1119
原创 Qwen3-ASR:语音识别够稳定,能流式,多语言?
最近Qwen发布的Qwen3-ASR系列模型(1.7B & 0.6B),不仅在多语言(52种语言/方言)识别上刷新了 SOTA,更通过创新的解决了 ALM 难以输出精确时间戳的痛点。本文将尝试从架构设计、训练策略到推理优化,全方位拆解这一“语音版 Qwen3”。
2026-01-30 16:42:32
1622
原创 DeepSeek-OCR又更新:一起看下OCR1和OCR2
DeepSeek-AI 最近又又开源了,这次是DeepSeek-OCR2,结合之前发布的DeepSeek-OCR ,可以发现DeepSeek走出了一条不同于主流 OCR 方案的技术路线。第一代模型探索了**“视觉作为文本压缩介质”的可行性,打破了传统的序列长度限制;第二代模型则通过“Visual Causal Flow(视觉因果流)”**架构,将因果推理引入视觉编码器,解决了复杂排版下的阅读顺序难题。本文将从架构设计、逻辑结构、训练范式及工程实现四个维度,深度剖析这两代模型的异同与创新。
2026-01-28 13:13:23
564
如何构建一个具备多轮追问、子任务失败回溯、恶意指令防护及API限流处理能力的DeepResearch Agent?
2025-11-18
专栏附带练习题与参考答案-零基础上手Python数据分析
2025-05-12
谷歌大模型prompt编写指南
2025-05-07
基于python从0到1实现一个plan-execute方案的Agent(快速学习原理和实现)
2025-04-25
算法面试2025中国移动算法面试编程题目及参考答案:1)服务器集群通信统计,2)整数1出现次数计算
2025-04-16
python脚本:利用openai接口模拟相声对话,AI郭老师和于老师已上线(DeepSeek接口也通用)
2025-02-20
本资源是学生成绩统计案例,涵盖了C语言入门阶段的核心知识点 通过代码实现、详细分析和教学扩展,可以帮助初学者逐步掌握C语言编程的基础
2025-02-17
DeepSeek模型本地部署指南:Windows与macOS环境下DeepSeek R1模型的快速安装与使用
2025-02-11
包含DeepSeekR1的论文以及清华版的入门进阶文档
2025-02-11
python脚本利用deepseek一键创作抖音文案(结合实时更新的百度热搜)
2025-02-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅