
Deep Learning
文章平均质量分 92
记录学习DL的过程
阿正的梦工坊
岁月不饶人,我亦未曾饶过岁月
展开
-
Squared ReLU:Transformer中的高效激活函数
Squared ReLU 的设计灵感来源于对高阶多项式激活函数的研究。虽然 rectified 形式的二次多项式激活函数在神经网络中并不常见,但研究表明它在 Transformer 模型中表现出色,尤其是在自然语言处理任务中,能够显著提升训练速度和模型性能。原创 2025-05-09 16:45:22 · 668 阅读 · 0 评论 -
SwiGLU:Transformer模型中的关键组件
SwiGLU(Switched Gated Linear Unit)是一种前馈神经网络层的变体,专门用于Transformer模型的FFN部分。它并不是一个独立的激活函数,而是结合了激活函数和线性变换的复合模块。SwiGLU的设计灵感来源于GLU(Gated Linear Unit),通过引入门控机制和特定的激活函数(SiLU)来增强模型的表达能力。原创 2025-05-06 16:53:43 · 1296 阅读 · 0 评论 -
DeepSeekMoE:MoE语言模型专家特化新突破
《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》原创 2025-05-05 14:30:13 · 549 阅读 · 0 评论 -
Switch Transformers:核心贡献与MoE的区别
《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》原创 2025-05-03 17:36:32 · 870 阅读 · 0 评论 -
Attention机制中的跨句子注意力
在某些场景中,我们会遇到一种更复杂的情况——对两句话(例如句子A和句子B)进行Attention计算,且两句话的长度可能不同。这种机制被称为“跨句子注意力”(Cross-Sentence Attention),本文将详细介绍其原理、应用场景和实现方式。原创 2025-04-25 23:12:43 · 673 阅读 · 0 评论 -
解锁大模型的“黑盒”:Boundless Distributed Alignment Search (DAS)如何让 AI 更透明
《Interpretability at Scale: Identifying Causal Mechanisms in Alpaca》原创 2025-04-25 22:40:16 · 952 阅读 · 0 评论 -
介绍分布式对齐搜索(DAS):神经网络因果抽象的新方法
《Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations》原创 2025-04-24 20:13:31 · 1016 阅读 · 0 评论 -
解读《Causal Abstractions of Neural Networks》:为神经网络行为提供因果解释
想象你在分析一个厨师(BERT)如何做一道菜(NLI任务)。你假设厨师按照某本食谱(C_NatLog)操作,例如先混合某些原料(子短语关系)。你检查厨师的工作台(内部表示),找到可能混合原料的位置(对齐搜索),然后替换原料(交换干预),看最终菜品是否符合食谱预期。如果一致,说明厨师确实遵循了食谱。原创 2025-04-24 14:46:06 · 853 阅读 · 0 评论 -
解读GPT-2 Small的间接对象识别(Indirect Object Identification, IOI)电路:从黑盒到可解释的Transformer机制
机械可解释性(Mechanistic Interpretability)研究旨在通过逆向工程,揭示模型权重所实现的算法,将复杂的非线性计算分解为可理解的组件。论文《Interpretability in the Wild: A Circuit for Indirect Object Identification in GPT-2 Small》是一项里程碑式的工作,首次详细剖析了GPT-2 Small在执行间接对象识别(Indirect Object Identification, IOI)任务时的内部计算电原创 2025-04-23 22:23:39 · 773 阅读 · 0 评论 -
使用稀疏自编码器(Sparse Autoencoders, SAEs)提升语言模型的可解释性
Cunningham 等人在论文《Sparse Autoencoders Find Highly Interpretable Features in Language Models》中提出了一种基于稀疏自编码器(Sparse Autoencoders, SAEs)的无监督方法,旨在解决语言模型中特征的多义性(Polysemanticity)和叠加(Superposition)问题,从而提取更具可解释性和单义性(Monosemantic)的特征。原创 2025-04-23 19:23:14 · 1358 阅读 · 0 评论 -
ReAttention方法介绍:无限上下文的训练无关解决方案
ICLR 2025发表的论文《ReAttention: Training-Free Infinite Context with Finite Attention Scope》原创 2025-04-23 17:01:19 · 995 阅读 · 0 评论 -
交叉熵(Cross-Entropy)和KL散度(Kullback-Leibler Divergence)的联系与区别
本文将深入探讨它们的定义、数学公式、联系与区别,并通过例子说明其意义。原创 2025-04-23 13:13:39 · 779 阅读 · 0 评论 -
Activation Addition:一种无需优化的语言模型控制方法
ActAdd 是一种基于激活工程(Activation Engineering) 的推理时控制方法,其核心思想是通过在模型前向传播过程中注入特定的“引导向量”(Steering Vector),改变模型的激活状态,从而影响输出文本的高级属性(如情感、主题或风格)。原创 2025-04-21 20:37:55 · 968 阅读 · 0 评论 -
经验时代:解读 David Silver 与 Richard S. Sutton 的新作《Welcome to the Era of Experience》
经验时代的四大维度——经验流、丰富交互、环境奖励和非人类推理——为这一愿景提供了具体的实现框架。原创 2025-04-21 13:54:09 · 2010 阅读 · 0 评论 -
KL散度近似方法介绍:从John Schulman的博客到DeepSeek GRPO的应用
John Schulman在其2020年3月7日的博客中详细探讨了如何通过蒙特卡洛方法近似KL散度,并提出了一种低方差、无偏的估计器。这一方法不仅在理论上具有重要意义,还被DeepSeek的GRPO算法所采用。原创 2025-04-20 18:21:29 · 863 阅读 · 0 评论 -
REINFORCE++:强化学习从人类反馈(RLHF)的简洁高效新选择
本文将深入介绍 REINFORCE++ 的核心思想、算法细节、与 PPO 的区别,以及其在 RLHF 背景下的优势和意义,特别针对疑问“REINFORCE++ 和 PPO 的区别是什么?不就是把 advantage 换了?”进行详细解答。通过数学公式、直观解释和专业洞见,帮助读者深刻理解这一算法。原创 2025-04-20 16:38:21 · 519 阅读 · 0 评论 -
强化学习的核心问题:延迟信号归因(Credit Assignment Problem)与探索-利用权衡(Exploration-Exploitation Trade-off)
强化学习的两个核心问题——延迟信号的归因问题和探索-利用的权衡——是阻碍其广泛应用的关键挑战。归因问题要求智能体在时间跨度长、因果关系复杂的情况下,准确分配奖励;而探索-利用权衡则要求智能体在有限资源下平衡短期收益和长期潜力。原创 2025-04-19 23:34:11 · 582 阅读 · 0 评论 -
PPO损失函数中的新旧策略比例并乘以优势解析:通过NLP的一个例子解释
本文将深入探讨PPO损失函数中为什么使用新旧策略的比例,而不是直接使用新策略,以及新旧策略比例与优势值的乘积的意义。为了让内容更直观,我们将通过一个NLP任务的例子(生成对话回复)来解释这些概念。原创 2025-04-19 23:12:04 · 608 阅读 · 0 评论 -
REINFORCE算法:强化学习的经典策略梯度方法及其在RLHF背景下的洞见
本文将深入探讨REINFORCE算法的思路、数学细节、Baseline增强形式、其他变体,以及其在RLHF背景下的意义与局限,为专业人士提供深刻的洞见。原创 2025-04-19 22:51:20 · 817 阅读 · 0 评论 -
WARM:通过权重平均奖励模型提升RLHF的鲁棒性与可靠性(代码实现)
Google DeepMind的论文《WARM: On the Benefits of Weight Averaged Reward Models》原创 2025-04-19 16:56:38 · 983 阅读 · 0 评论 -
BERT为何最多处理512个Token?原因与解决方案
BERT有一个广为人知的限制:它最多只能处理512个token的文本输入。为什么会有这个瓶颈?这个限制的根本原因是什么?有没有解决办法?原创 2025-04-18 16:18:37 · 783 阅读 · 0 评论 -
Non-local Neural Networks(非局部神经网络):什么是非局部均值?
《Non-local Neural Networks》论文的一个关键贡献是揭示了其提出的非局部操作(Non-local Operation)与Transformer中的自注意力机制(Self-Attention)的联系,并将其扩展为一个更通用的构建模块,适用于图像和视频的时空建模。原创 2025-04-18 15:44:51 · 434 阅读 · 0 评论 -
Energy Matching中的训练目标分析
在《Energy Matching: Unifying Flow Matching and Energy-Based Models for Generative Modeling》一文中,作者提出了一种新颖的生成模型框架——Energy Matching,通过结合最优传输(Optimal Transport, OT)和能量基础模型(Energy-Based Models, EBMs)的优势,实现高效的样本生成和显式的似然估计。原创 2025-04-17 20:38:59 · 1065 阅读 · 0 评论 -
PixelFlow:像素空间生成模型的新范式(代码实现)
《PixelFlow: Pixel-Space Generative Models with Flow》原创 2025-04-17 18:36:45 · 1254 阅读 · 0 评论 -
NaViT:Vision Transformer的灵活分辨率与高效训练新范式
《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》原创 2025-04-17 16:48:17 · 848 阅读 · 0 评论 -
语言生成建模为Token级 Markov 决策过程(Token-Level MDP)详解
Markov 决策过程(MDP)是一种数学框架,用于建模序列决策问题,特别适合描述智能体(agent)与环境(environment)交互并通过学习策略(policy)最大化累积奖励(cumulative reward)的场景。MDP 的核心假设是马尔可夫性,即未来的状态和奖励仅依赖于当前状态和动作,而与历史无关。原创 2025-04-16 15:03:03 · 302 阅读 · 0 评论 -
ByteDance Seed团队提出VAPO:高效解决长链推理任务的强化学习框架
VAPO(Value-based Augmented Proximal Policy Optimization)原创 2025-04-16 14:49:46 · 1411 阅读 · 0 评论 -
ByteDance Seed团队:解锁PPO在长链思考任务中的潜力——VC-PPO的创新突破(一):原理介绍
《What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret》原创 2025-04-14 18:00:53 · 986 阅读 · 0 评论 -
ByteDance Seed团队:Value-Calibrated Proximal Policy Optimization (VC-PPO)(二)代码实现
解决Long-COT的问题,代码实现原创 2025-04-14 17:58:17 · 750 阅读 · 0 评论 -
MATH-SHEPHERD:无需人工标注的数学推理过程监督新方法(Step-by-step-PPO代码)
MATH-SHEPHERD通过自动化的过程监督数据构建框架,突破了PRM训练对人工标注的依赖,为数学推理任务提供了高效、强大的解决方案。原创 2025-04-13 20:41:12 · 1136 阅读 · 0 评论 -
Attention with Linear Biases (ALiBi)方法介绍:提升Transformer外推能力的创新方法
2022年ICLR会议上发表的论文《Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation》提出了一种简单而高效的方法显著提升了Transformer在长序列上的外推能力。本文将详细介绍ALiBi的核心方法、其为何能提高外推能力,以及后续工作如何进一步优化这一能力。原创 2025-04-12 21:36:18 · 1145 阅读 · 0 评论 -
困惑度(Perplexity,简称PPL)在自然语言处理中的全面解析
困惑度(Perplexity,简称PPL)是自然语言处理(NLP)和大语言模型(LLM)领域中常用的评估指标,用于衡量语言模型对文本的建模能力。通俗来说,困惑度反映了模型在预测下一个词时的“困惑”程度:困惑度越低,说明模型对文本的预测越准确,建模能力越强。原创 2025-04-12 19:26:34 · 761 阅读 · 0 评论 -
深入解析相对位置编码:从Transformer到Relative Position Representations
2018年,Peter Shaw等人在论文《Self-Attention with Relative Position Representations》中首次提出了相对位置编码(Relative Position Representations)的概念,为Transformer引入了一种更灵活、更高效的位置信息建模方式。原创 2025-04-11 18:18:40 · 779 阅读 · 0 评论 -
为什么RNN模型不需要位置编码?
RNN模型不需要显式位置编码的核心原因在于其递归结构天然能够捕捉序列的顺序信息。原创 2025-04-11 17:00:26 · 660 阅读 · 0 评论 -
传统 CNFs 的训练方法:最大似然估计与 ODE 模拟以及Flow Matching“无仿真”(simulation-free)
解释传统连续归一化流(Continuous Normalizing Flows, CNFs)训练方法(以最大似然估计为例)为什么需要昂贵的 ODE 模拟,以及 Flow Matching(FM)提出的“无仿真”(simulation-free)方法是如何绕过这一问题的。我们会从原理、公式和计算过程逐步展开。原创 2025-04-08 14:35:39 · 794 阅读 · 0 评论 -
Flow Matching 和 Diffusion 的联系与区别
Diffusion 简单但慢,适合高质量生成;Flow Matching 快且优雅,但需要设计路径和求解 ODE。原创 2025-04-08 14:01:12 · 1205 阅读 · 0 评论 -
深入解析 Flow Matching(二):从条件概率路径与向量场到条件流匹配
相比扩散模型,Flow Matching 跳过了前向加噪,直接从噪声到数据的路径更高效。原创 2025-04-07 22:48:47 · 1335 阅读 · 0 评论 -
深入解析 Flow Matching:从条件概率路径与向量场到条件流匹配
我们将详细解析其原理,探讨数学公式的来源,并推导其背后的过程,帮助读者深入理解这一创新方法。原创 2025-04-07 20:48:11 · 931 阅读 · 0 评论 -
什么是Continuous Normalizing Flow (CNF)
Continuous Normalizing Flow (CNF) 是Normalizing Flow的自然延伸,它通过引入连续时间动力学,将离散变换升级为一个平滑的演化过程。对于熟悉Flow的研究者来说,CNF的关键区别在于它的“Continuous”属性——不再是分步变换,而是用微分方程描述整个映射。原创 2025-04-07 17:10:51 · 754 阅读 · 0 评论 -
连续性方程(Continuity Equation):Flow流模型(CNF)图像生成任务背景下的含义
这篇博客将面向对概率密度变换感兴趣的深度学习研究者,详细介绍方程的来源、意义,以及它们在深度学习中的潜在应用。原创 2025-04-07 17:03:17 · 920 阅读 · 0 评论