- 博客(31)
- 收藏
- 关注
原创 2025年大语言模型(LLM)架构演进解析
混合专家(MoE)成为主流:MoE已成为在不牺牲推理效率的前提下,将模型参数扩展至数千亿乃至万亿规模的首选方案。未来的探索将聚焦于更优的路由算法、专家专业化训练以及共享专家等设计细节。注意力机制持续精化:GQA已取代MHA成为标准配置。为应对超长上下文挑战,滑动窗口注意力、注意力与线性时间复杂度模块(如DeltaNet)的混合机制,正成为新的研究热点。归一化策略的精细化调整:从Pre-LN到Post-LN变体,再到QK-Norm和“三明治”式布局,开发者们正通过精细调整归一化策略来追求极致的训练稳定性。
2025-10-22 12:31:36
2316
原创 Llama系列:从Lama到Llama 4的演进——从纯文本到原生多模态智能体
维度演进方向架构Dense →MoE模态纯文本 →原生多模态上下文2K →10M训练人工标注 →合成数据 + 在线 RL对齐拒绝回答 →平衡表达部署研究原型 →工业级全栈生态。
2025-10-22 12:14:12
1409
原创 Qwen系列:从 Qwen 到 Qwen3 的演进
在大模型竞争白热化的背景下,阿里通义千问(Qwen)系列持续迭代,从基础语言建模能力出发,逐步强化等维度。
2025-10-22 12:11:32
1882
原创 LongCat-Flash-Omni:面向工业场景的端侧友好型多模态大模型
问题形式化:给定时间序列多模态输入Mmtτtt1TM{(mtτtt1T,其中mtmt为模态数据,τt\tau_tτt为时间戳,目标是构建函数fM→YfM→Y,使得模型能理解任意时间点的跨模态关联。传统方法将整个音频/视频作为单一特征zaudiozaudio时序分辨率丢失:无法定位"他在说’菜品很冷’时背景有婴儿哭声"长度限制:32K 上下文仅支持 1-2 张图 + 10 秒音频计算效率低下。
2025-11-11 20:40:16
1269
原创 LongCat-Flash-Chat:高效智能体大语言模型
LongCat-Flash-Chat 重新定义了高效大模型的技术路线——不是盲目堆砌参数,而是通过精巧架构、严谨训练与目标导向优化,在计算效率与模型能力间取得最优平衡。其开源(MIT 许可证)将加速智能体技术在各行各业的落地,推动 AI 从"语言模型"迈向"行动智能"的新阶段。
2025-11-09 10:46:39
1102
原创 【LLM大模型组件】大模型上下文窗口扩展技术
上下文窗口(Context Window)指模型单次前向传播可处理的最大输入序列长度,直接影响长文本理解、多轮对话连贯性与复杂推理能力。简单来说就是,上下文窗口:就是大模型的“短期记忆力”——它能一次性处理多少文本内容。4K tokens:约3页A4纸的内容(传统模型)32K tokens:一篇完整学术论文或中篇小说:整本《三体》或专业技术手册1M+ tokens:你过去一年的所有聊天记录或整套法律条文。
2025-11-05 10:23:20
1596
原创 【LLM大模型组件】注意力机制:Qwen3-Next的架构基石 Gated DeltaNet
维度传统方案价值记忆管理单一机制门控+增量双机制自适应遗忘/更新计算复杂度On2O(n^2)On2OnO(n)On支持100K+上下文真实任务性能次优SOTA适用于工业场景部署成本高极低降低90%+ GPU开销。
2025-10-31 16:57:49
2041
原创 MiniMax-M2:国产大模型的又一匹黑马
MiniMax-M2不仅是一款开源大模型,更是对“高效智能体基础设施”的一次重要探索。高性能 Agent 不必依赖千亿甚至万亿级参数,通过架构创新与任务对齐,10B 激活参数足以支撑复杂工作流。
2025-10-30 00:09:59
2415
原创 LLaMA 3 强化训练基石:DPO
方法GPT-4 胜率 vs 人工KL(π∣πrefπ∣πref训练时间(8×A100)SFT50%0.0PPO (RLHF)57%2.112 小时DPO61%1.85 小时结论:DPO 在性能、效率、稳定性上全面优于 RLHF。
2025-10-28 15:16:26
1107
原创 DeepSeek-R1强化训练基石:GRPO
GRPO是一种专为大型语言模型设计的强化学习算法,通过组内采样比较替代传统PPO的价值网络,显著降低计算开销。其核心流程包括生成多样化回答、计算标准化优势、KL散度约束和策略更新。GRPO在可验证奖励任务中表现优异,但也存在长度偏差等问题,后续改进算法如Dr. GRPO、GSPO等针对性地优化了优势计算和稳定性。该算法为LLM强化学习提供了高效简洁的新范式。
2025-10-28 15:00:23
1153
原创 Qwen3 强化训练基石:GSPO 序列级强化学习算法
本文介绍了GSPO(Group Sequence Policy Optimization),一种新型强化学习算法,用于提升大语言模型在复杂任务中的推理能力。传统方法如PPO和GRPO存在训练不稳定、效率低等问题。GSPO创新性地采用序列级优化,通过长度归一化的序列重要性比和整体裁剪机制,显著提高了训练稳定性和效率。实验证明,GSPO在MoE架构和长序列任务中表现优异,已成功应用于Qwen3系列模型的训练。文章还提出了支持细粒度优势的变体GSPO-token,扩展了算法的适用场景。
2025-10-28 00:45:18
1445
原创 Qwen3Guard:构建安全、合规、可控的生成式的智能内容防护系统
随着大语言模型(LLMs)在企业级场景中的广泛应用,其生成能力所伴随的安全与合规风险日益凸显。Qwen3Guard 应运而生——作为Qwen3生态中的智能内容防护层,它并非独立模型,而是深度集成于推理流程中的安全中间件。其核心目标是:在不牺牲模型性能与用户体验的前提下,实现输入、生成过程与输出全链路的安全保障。
2025-10-27 14:55:37
1495
原创 【LLM大模型组件】注意力机制:DeepSeek 稀疏注意力机制(DSA)
DeepSeek 稀疏注意力机制(DSA)是一种创新的、由 闪电索引器(Lightning Indexer) 驱动的 动态细粒度稀疏注意力 机制。它将传统自注意力机制的 “选择” 过程与 “计算” 过程解耦,仅对Top-k个最相关的历史词元(Token)进行高精度注意力计算。
2025-10-26 13:54:32
1851
原创 Llama 4:测评造假 + 性能拉胯 ?
在开源模型的巨大压力下,Llama 4 终于开源发布了,然而实测后,性能令人大失所望,一度陷入测试造假的风波。撇开这些因素,本文只针对Llama 4的技术原理进行剖析。Llama 4 通过四大支柱,实现了的最优平衡。
2025-10-25 12:35:45
986
原创 OpenAI被逼无奈的开源模型:GPT-OSS
GPT-OSS-120b 和 GPT-OSS-20b 两款模型采用专家混合(Mixture-of-Experts, MoE)架构的自回归 Transformer,集成了 RoPE、GQA、SwiGLU 和 RMS Norm 等先进技术,并辅以创新的 MXFP4 量化。
2025-10-25 00:49:39
1143
原创 Gemma 3:轻量、多模态、长上下文、负责任开源的工业级新标杆
Gemma 3 是 Google 首个支持图像理解的轻量级开源大模型,在消费级硬件上实现 128K 长上下文、多语言、强 STEM 能力,27B 版性能媲美 Gemini 1.5 Pro,同时以系统化安全机制保障负责任部署。
2025-10-25 00:45:50
1058
原创 Gemini 2.5:终极智能体引擎
Google DeepMind发布Gemini 2.5 Pro(具备多模态感知、百万级上下文记忆、动态思考预算和原生工具调用能力,在编码、数学、科研等基准测试中全面领先。革命性架构创新包括稀疏MoE设计、可编程思维深度及强化学习优化,支持长期任务规划。
2025-10-25 00:43:45
948
原创 Qwen3-Max:1T 参数 MoE 模型如何实现训练稳定、推理满分?
维度Qwen3-Max 贡献训练工程实现 1T+ MoE 模型的稳定、高效、容错训练能力协同统一语言、代码、工具调用与高阶推理能力推理范式通过测试时计算扩展,突破静态模型能力上限开放生态兼容 OpenAI API,降低开发者迁移成本未来方向:Qwen3-Max-Thinking 的正式发布将进一步推动大模型向可验证、可调试、可扩展的通用智能体演进。参考文献。
2025-10-24 11:09:07
1157
原创 Qwen3-Next:长上下文 + 高稀疏MoE + 混合注意力 = 下一代大模型架构革命
Qwen3-Next提出新一代大模型架构创新,通过混合注意力机制(75% Gated DeltaNet + 25% Gated Attention)、极致稀疏MoE(80B总参/3B激活)、训练稳定性优化及多Token预测技术,实现突破性进展。该架构在仅消耗Qwen3-32B 9.3%训练成本下,性能持平甚至超越235B旗舰模型,推理吞吐提升10倍以上,支持256K长上下文处理。核心优势体现为:更少数据(15T Token)、更低计算量(GPU小时减少90.7%)和更高效推理,验证了Context Scal
2025-10-24 10:54:59
1170
原创 Qwen3-VL:下一代视觉语言大模型
Qwen3-VL系列实现视觉语言模型从感知到认知与执行的关键突破,在文本能力、视觉推理、长视频处理等维度全面升级。其旗舰模型Qwen3-VL-235B-A22B在多项评测中超越Gemini 2.5 Pro并达到SOTA水平。通过创新性的MRoPE-Interleave位置编码和DeepStack多层视觉注入技术,模型显著提升了时空鲁棒性和视觉细节捕捉能力,支持256K token长上下文和精准视频定位。该系列还强化了视觉Agent、多模态推理、空间感知等核心功能,为跨模态应用和智能交互奠定基础。
2025-10-24 10:50:44
917
原创 Qwen3:划时代的多语言、多模式、开源大模型
阿里巴巴发布Qwen3系列大模型,包含0.6B至235B参数的密集与MoE双架构,支持119种语言并采用36T token预训练。核心创新包括动态思考模式切换(支持/think与/no think指令)、强到弱蒸馏技术(小模型训练成本降低90%)、高效MoE架构(235B参数仅激活22B)以及全系列开源。模型通过四阶段精炼实现复杂推理能力,在数学、代码等任务表现优异,同时提供可控的思维预算功能。技术亮点包含无共享专家的MoE设计、全局负载均衡优化,以及结合ABF+YARN的长上下文支持。
2025-10-24 10:45:12
1570
原创 Qwen3-Omni:统一端到端多模态交互模型的架构演进与技术突破
首个支持动态思考模式切换的开源大模型→ 一模型通吃简单与复杂任务。119语言支持 + 36T Token训练→ 真正全球化、多领域能力。强到弱蒸馏 + 高效MoE→ 小模型低成本高性能,推动边缘部署。全系列开源 + 完整技术报告→ 社区可复现、可改进、可商用。
2025-10-24 10:36:25
850
原创 PPO算法:ChatGPT 和 RLHF 的核心
ChatGPT的成功使得这一强化学习算法受到广泛关注,PPO算法是目前RL领域应用的算法之一。PPO 由John Schulman 等人于 2017 年提出,是强化学习(RL)中。PPO 旨在解决传统策略梯度方法中和的两大难题,以及传统Actor-Critic方法中策略更新步长不确定、易导致的问题。PPO 巧妙地结合了。通过一个,在不引入复杂二阶优化的前提下,实现了信任区域的稳定性,从而在简单性和稳定性之间取得了完美平衡。PPO 因其。
2025-10-23 11:01:47
431
原创 PPO前传2:Actor-Critic架构
强化学习(RL)的核心目标是:,供了坚实的理论基础与高效的离散控制方案;,解锁了连续动作与随机策略的表达能力;,通过协同学习机制,成为现代强化学习的主流。
2025-10-23 10:54:34
704
原创 PPO前传1:策略梯度算法
策略梯度算法是强化学习中一类直接优化参数化策略 πθ(a∣s)\pi_\theta(a|s)πθ(a∣s) 的方法,通过计算目标函数(通常是累计奖励的期望)关于策略参数 θ\thetaθ 的梯度,并沿着梯度方向更新 θ\thetaθ。在经典的马尔可夫决策过程(MDP)中,我们的目标是找到一个参数 θ\thetaθ 使得期望累计奖励最大化。对于回合制任务(Episodic Tasks),目标函数可以定义为:J(θ)=Eτ∼πθ[R(τ)]=Eτ∼πθ[∑t=0Tγtrt]=Es0∼ρ0[Vπθ(s0)]J
2025-10-23 10:51:48
558
原创 PPO前传0:强化学习基础
本文介绍了强化学习的核心概念与基础理论框架。首先对比了强化学习(RL)与深度学习(DL)的差异,指出RL以最大化累积奖励为目标,依赖延迟的稀疏反馈和实时交互数据。接着阐述了RL的基本要素:智能体、环境、状态、动作、奖励、策略和回报。文章重点解析了马尔可夫决策过程(MDP)作为RL的数学基础,包括状态转移、奖励函数和折扣因子等核心概念。最后详细介绍了价值函数(状态价值V和动作价值Q)及其递归关系——贝尔曼方程,这是求解最优策略的关键工具。全文系统性地构建了强化学习的理论基础,为后续PPO等算法提供了必要的知识
2025-10-23 10:38:37
498
原创 RL策略优化算法演进:从 PPO、DPO、GRPO、GSPO、GMPO、DAPO、GFPO 到 LitePPO
LLM对齐算法演进:从PPO到无评论家优化 大语言模型对齐面临三大核心挑战:人类偏好量化、训练稳定性和计算效率。算法演进遵循从复杂到简约的路径: 基础范式:PPO建立三阶段RLHF框架,但需维护四个模型,存在奖励黑客风险; 效率突破:DPO通过封闭形式解实现无RL优化,GRPO进一步移除评论家模型; 偏差修正:后续工作针对GRPO进行系统性修复,如DAPO解决规模化训练问题; 简约回归:LitePPO等实证研究揭示高性能对齐的最小组件集。 当前趋势表明,在保证对齐质量前提下,降低系统复杂性和训练成本成为关键
2025-10-23 10:12:05
750
原创 DeepSeek-V3.2-Exp:基于DeepSeek稀疏注意力实现长上下文高效能计算
这是一个实验性的。该模型通过精密的策略,在基准上成功集成了机制。DSA是一种创新的、由机制。它将传统自注意力机制的**“选择”** 过程与**“计算”** 过程解耦,仅对Top-k个最相关的历史词元(Token)进行高精度注意力计算。DSA将核心注意力计算的复杂度从OL2显著降低至近似OL⋅k,其中k是选定词元数量且k≪L。评估结果表明,DeepSeek-V3.2-Exp在几乎不牺牲核心模型能力的前提下,尤其在等超长上下文场景下,实现了,推理成本仅为密集注意力模型的约。
2025-10-22 12:17:50
1154
原创 DeepSeek-OCR :面向上下文光学压缩的端到端文档理解系统
DeepSeek-OCR提出了一种面向大语言模型(LLMs)的新型上下文处理范式,通过将文本内容编码为高信息密度的视觉标记(vision tokens),再由视觉语言模型解码重建,实现了文本信息的高效压缩。该系统采用双模块协同架构:DeepEncoder作为上下文光学压缩器,DeepSeek3B-MoE-A570M作为解码器。
2025-10-22 12:05:16
1100
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅