熵增定律28-CSDN博客

原创 2025年大语言模型（LLM）架构演进解析

混合专家（MoE）成为主流：MoE已成为在不牺牲推理效率的前提下，将模型参数扩展至数千亿乃至万亿规模的首选方案。未来的探索将聚焦于更优的路由算法、专家专业化训练以及共享专家等设计细节。注意力机制持续精化：GQA已取代MHA成为标准配置。为应对超长上下文挑战，滑动窗口注意力、注意力与线性时间复杂度模块（如DeltaNet）的混合机制，正成为新的研究热点。归一化策略的精细化调整：从Pre-LN到Post-LN变体，再到QK-Norm和“三明治”式布局，开发者们正通过精细调整归一化策略来追求极致的训练稳定性。

2025-10-22 12:31:36 2316

原创 Llama系列：从Lama到Llama 4的演进——从纯文本到原生多模态智能体

维度演进方向架构Dense →MoE模态纯文本 →原生多模态上下文2K →10M训练人工标注 →合成数据 + 在线 RL对齐拒绝回答 →平衡表达部署研究原型 →工业级全栈生态。

2025-10-22 12:14:12 1409

原创 Qwen系列：从 Qwen 到 Qwen3 的演进

在大模型竞争白热化的背景下，阿里通义千问（Qwen）系列持续迭代，从基础语言建模能力出发，逐步强化等维度。

2025-10-22 12:11:32 1882

原创 LongCat-Flash-Omni：面向工业场景的端侧友好型多模态大模型

问题形式化：给定时间序列多模态输入Mmtτtt1TM{(mtτtt1T，其中mtmt为模态数据，τt\tau_tτt为时间戳，目标是构建函数fM→YfM→Y，使得模型能理解任意时间点的跨模态关联。传统方法将整个音频/视频作为单一特征zaudiozaudio时序分辨率丢失：无法定位"他在说’菜品很冷’时背景有婴儿哭声"长度限制：32K 上下文仅支持 1-2 张图 + 10 秒音频计算效率低下。

2025-11-11 20:40:16 1269

原创 LongCat-Flash-Chat：高效智能体大语言模型

LongCat-Flash-Chat 重新定义了高效大模型的技术路线——不是盲目堆砌参数，而是通过精巧架构、严谨训练与目标导向优化，在计算效率与模型能力间取得最优平衡。其开源（MIT 许可证）将加速智能体技术在各行各业的落地，推动 AI 从"语言模型"迈向"行动智能"的新阶段。

2025-11-09 10:46:39 1102

原创【LLM大模型组件】大模型上下文窗口扩展技术

上下文窗口（Context Window）指模型单次前向传播可处理的最大输入序列长度，直接影响长文本理解、多轮对话连贯性与复杂推理能力。简单来说就是，上下文窗口：就是大模型的“短期记忆力”——它能一次性处理多少文本内容。4K tokens：约3页A4纸的内容（传统模型）32K tokens：一篇完整学术论文或中篇小说：整本《三体》或专业技术手册1M+ tokens：你过去一年的所有聊天记录或整套法律条文。

2025-11-05 10:23:20 1596

原创【LLM大模型组件】注意力机制：Qwen3-Next的架构基石 Gated DeltaNet

维度传统方案价值记忆管理单一机制门控+增量双机制自适应遗忘/更新计算复杂度On2O(n^2)On2OnO(n)On支持100K+上下文真实任务性能次优SOTA适用于工业场景部署成本高极低降低90%+ GPU开销。

2025-10-31 16:57:49 2041

原创 MiniMax-M2：国产大模型的又一匹黑马

MiniMax-M2不仅是一款开源大模型，更是对“高效智能体基础设施”的一次重要探索。高性能 Agent 不必依赖千亿甚至万亿级参数，通过架构创新与任务对齐，10B 激活参数足以支撑复杂工作流。

2025-10-30 00:09:59 2415

原创 Qwen3 Embedding与Reranking：新一代文本表征与排序模型

文章优先发布在，有些文章未来得及同步，可以直接关注公众号查看。

2025-10-29 13:15:16 1381

原创 EmbeddingGemma：最强开源轻量嵌入模型，专为端侧AI打造

文章优先发布在，有些文章未来得及同步，可以直接关注公众号查看。

2025-10-29 13:03:04 1467

原创 LLaMA 3 强化训练基石：DPO

方法GPT-4 胜率 vs 人工KL(π∣πrefπ∣πref训练时间（8×A100）SFT50%0.0PPO (RLHF)57%2.112 小时DPO61%1.85 小时结论：DPO 在性能、效率、稳定性上全面优于 RLHF。

2025-10-28 15:16:26 1107

原创 DeepSeek-R1强化训练基石：GRPO

GRPO是一种专为大型语言模型设计的强化学习算法，通过组内采样比较替代传统PPO的价值网络，显著降低计算开销。其核心流程包括生成多样化回答、计算标准化优势、KL散度约束和策略更新。GRPO在可验证奖励任务中表现优异，但也存在长度偏差等问题，后续改进算法如Dr. GRPO、GSPO等针对性地优化了优势计算和稳定性。该算法为LLM强化学习提供了高效简洁的新范式。

2025-10-28 15:00:23 1153

原创 Qwen3 强化训练基石：GSPO 序列级强化学习算法

本文介绍了GSPO（Group Sequence Policy Optimization），一种新型强化学习算法，用于提升大语言模型在复杂任务中的推理能力。传统方法如PPO和GRPO存在训练不稳定、效率低等问题。GSPO创新性地采用序列级优化，通过长度归一化的序列重要性比和整体裁剪机制，显著提高了训练稳定性和效率。实验证明，GSPO在MoE架构和长序列任务中表现优异，已成功应用于Qwen3系列模型的训练。文章还提出了支持细粒度优势的变体GSPO-token，扩展了算法的适用场景。

2025-10-28 00:45:18 1445

原创 Qwen3Guard：构建安全、合规、可控的生成式的智能内容防护系统

随着大语言模型（LLMs）在企业级场景中的广泛应用，其生成能力所伴随的安全与合规风险日益凸显。Qwen3Guard 应运而生——作为Qwen3生态中的智能内容防护层，它并非独立模型，而是深度集成于推理流程中的安全中间件。其核心目标是：在不牺牲模型性能与用户体验的前提下，实现输入、生成过程与输出全链路的安全保障。

2025-10-27 14:55:37 1495

原创【LLM大模型组件】注意力机制：DeepSeek 稀疏注意力机制（DSA）

DeepSeek 稀疏注意力机制（DSA）是一种创新的、由闪电索引器（Lightning Indexer）驱动的动态细粒度稀疏注意力机制。它将传统自注意力机制的 “选择” 过程与 “计算” 过程解耦，仅对Top-k个最相关的历史词元（Token）进行高精度注意力计算。

2025-10-26 13:54:32 1851

原创 Llama 4：测评造假 + 性能拉胯？

在开源模型的巨大压力下，Llama 4 终于开源发布了，然而实测后，性能令人大失所望，一度陷入测试造假的风波。撇开这些因素，本文只针对Llama 4的技术原理进行剖析。Llama 4 通过四大支柱，实现了的最优平衡。

2025-10-25 12:35:45 986

原创 OpenAI被逼无奈的开源模型：GPT-OSS

GPT-OSS-120b 和 GPT-OSS-20b 两款模型采用专家混合（Mixture-of-Experts, MoE）架构的自回归 Transformer，集成了 RoPE、GQA、SwiGLU 和 RMS Norm 等先进技术，并辅以创新的 MXFP4 量化。

2025-10-25 00:49:39 1143

原创 Gemma 3：轻量、多模态、长上下文、负责任开源的工业级新标杆

Gemma 3 是 Google 首个支持图像理解的轻量级开源大模型，在消费级硬件上实现 128K 长上下文、多语言、强 STEM 能力，27B 版性能媲美 Gemini 1.5 Pro，同时以系统化安全机制保障负责任部署。

2025-10-25 00:45:50 1058

原创 Gemini 2.5：终极智能体引擎

Google DeepMind发布Gemini 2.5 Pro（具备多模态感知、百万级上下文记忆、动态思考预算和原生工具调用能力，在编码、数学、科研等基准测试中全面领先。革命性架构创新包括稀疏MoE设计、可编程思维深度及强化学习优化，支持长期任务规划。

2025-10-25 00:43:45 948

原创 Qwen3-Max：1T 参数 MoE 模型如何实现训练稳定、推理满分？

维度Qwen3-Max 贡献训练工程实现 1T+ MoE 模型的稳定、高效、容错训练能力协同统一语言、代码、工具调用与高阶推理能力推理范式通过测试时计算扩展，突破静态模型能力上限开放生态兼容 OpenAI API，降低开发者迁移成本未来方向：Qwen3-Max-Thinking 的正式发布将进一步推动大模型向可验证、可调试、可扩展的通用智能体演进。参考文献。

2025-10-24 11:09:07 1157

原创 Qwen3-Next：长上下文 + 高稀疏MoE + 混合注意力 = 下一代大模型架构革命

Qwen3-Next提出新一代大模型架构创新，通过混合注意力机制（75% Gated DeltaNet + 25% Gated Attention）、极致稀疏MoE（80B总参/3B激活）、训练稳定性优化及多Token预测技术，实现突破性进展。该架构在仅消耗Qwen3-32B 9.3%训练成本下，性能持平甚至超越235B旗舰模型，推理吞吐提升10倍以上，支持256K长上下文处理。核心优势体现为：更少数据（15T Token）、更低计算量（GPU小时减少90.7%）和更高效推理，验证了Context Scal

2025-10-24 10:54:59 1170

原创 Qwen3-VL：下一代视觉语言大模型

Qwen3-VL系列实现视觉语言模型从感知到认知与执行的关键突破，在文本能力、视觉推理、长视频处理等维度全面升级。其旗舰模型Qwen3-VL-235B-A22B在多项评测中超越Gemini 2.5 Pro并达到SOTA水平。通过创新性的MRoPE-Interleave位置编码和DeepStack多层视觉注入技术，模型显著提升了时空鲁棒性和视觉细节捕捉能力，支持256K token长上下文和精准视频定位。该系列还强化了视觉Agent、多模态推理、空间感知等核心功能，为跨模态应用和智能交互奠定基础。

2025-10-24 10:50:44 917

原创 Qwen3：划时代的多语言、多模式、开源大模型

阿里巴巴发布Qwen3系列大模型，包含0.6B至235B参数的密集与MoE双架构，支持119种语言并采用36T token预训练。核心创新包括动态思考模式切换（支持/think与/no think指令）、强到弱蒸馏技术（小模型训练成本降低90%）、高效MoE架构（235B参数仅激活22B）以及全系列开源。模型通过四阶段精炼实现复杂推理能力，在数学、代码等任务表现优异，同时提供可控的思维预算功能。技术亮点包含无共享专家的MoE设计、全局负载均衡优化，以及结合ABF+YARN的长上下文支持。

2025-10-24 10:45:12 1570

原创 Qwen3-Omni：统一端到端多模态交互模型的架构演进与技术突破

首个支持动态思考模式切换的开源大模型→ 一模型通吃简单与复杂任务。119语言支持 + 36T Token训练→ 真正全球化、多领域能力。强到弱蒸馏 + 高效MoE→ 小模型低成本高性能，推动边缘部署。全系列开源 + 完整技术报告→ 社区可复现、可改进、可商用。

2025-10-24 10:36:25 850

原创 PPO算法：ChatGPT 和 RLHF 的核心

ChatGPT的成功使得这一强化学习算法受到广泛关注，PPO算法是目前RL领域应用的算法之一。PPO 由John Schulman 等人于 2017 年提出，是强化学习（RL）中。PPO 旨在解决传统策略梯度方法中和的两大难题，以及传统Actor-Critic方法中策略更新步长不确定、易导致的问题。PPO 巧妙地结合了。通过一个，在不引入复杂二阶优化的前提下，实现了信任区域的稳定性，从而在简单性和稳定性之间取得了完美平衡。PPO 因其。

2025-10-23 11:01:47 431

原创 PPO前传2：Actor-Critic架构

强化学习（RL）的核心目标是:，供了坚实的理论基础与高效的离散控制方案；，解锁了连续动作与随机策略的表达能力；，通过协同学习机制，成为现代强化学习的主流。

2025-10-23 10:54:34 704

原创 PPO前传1：策略梯度算法

策略梯度算法是强化学习中一类直接优化参数化策略 πθ(a∣s)\pi_\theta(a|s)πθ(a∣s) 的方法，通过计算目标函数（通常是累计奖励的期望）关于策略参数 θ\thetaθ 的梯度，并沿着梯度方向更新 θ\thetaθ。在经典的马尔可夫决策过程（MDP）中，我们的目标是找到一个参数 θ\thetaθ 使得期望累计奖励最大化。对于回合制任务（Episodic Tasks），目标函数可以定义为：J(θ)=Eτ∼πθ[R(τ)]=Eτ∼πθ[∑t=0Tγtrt]=Es0∼ρ0[Vπθ(s0)]J

2025-10-23 10:51:48 558

原创 PPO前传0：强化学习基础

本文介绍了强化学习的核心概念与基础理论框架。首先对比了强化学习(RL)与深度学习(DL)的差异，指出RL以最大化累积奖励为目标，依赖延迟的稀疏反馈和实时交互数据。接着阐述了RL的基本要素：智能体、环境、状态、动作、奖励、策略和回报。文章重点解析了马尔可夫决策过程(MDP)作为RL的数学基础，包括状态转移、奖励函数和折扣因子等核心概念。最后详细介绍了价值函数（状态价值V和动作价值Q）及其递归关系——贝尔曼方程，这是求解最优策略的关键工具。全文系统性地构建了强化学习的理论基础，为后续PPO等算法提供了必要的知识

2025-10-23 10:38:37 498

熵增定律28的博客