- 博客(55)
- 资源 (1)
- 收藏
- 关注
原创 Score-Based SDE(Stochastic Differential Equations)生成模型详解,以VP-SDE为例
Score-Based SDE模型通过随机微分方程描述数据生成过程,包括前向扩散和反向生成两个阶段。VP-SDE作为典型实现,其前向过程将数据渐变为高斯分布;反向过程通过逐步采样还原数据,本文从理论上证明了VP-SDE和DDPM的等价性,统一了对数梯度和噪声预测视角
2025-06-12 09:15:00
649
原创 Score-Based SDE(Stochastic Differential Equations)生成模型详解
本文介绍了基于Score-Based SDE的生成模型原理与实现。该模型通过前向SDE将数据逐步扩散为噪声,再通过反向SDE结合分数函数进行生成。文章详细推导了VE-SDE的损失函数,并提供了PyTorch实现代码框架,包括SDE定义、评分网络结构、损失计算和采样过程。模型通过神经网络学习数据分布的分数(梯度)来指导生成过程,相比传统生成方法具有理论严谨性和高质量生成能力。
2025-06-12 09:00:00
750
原创 CLIP多模态模型详解
CLIP是一种突破性多模态模型,通过对比学习将图像和文本映射到统一语义空间。其核心创新在于:双编码器架构(图像/文本)、零样本迁移能力、利用4亿互联网图文对预训练。相比传统CV模型,CLIP摆脱人工标注依赖,仅用文本描述即可推理。应用包括零样本分类、图文检索、图像生成引导等。局限性包括计算成本高、细粒度不足和数据偏差。作为多模态AI基石,CLIP推动了DALL-E等AIGC模型发展,开创了无监督预训练在多模态领域的新范式。
2025-06-11 21:56:25
780
原创 对比学习(Contrastive Learning)方法详解
对比学习是一种自监督表示学习方法,通过拉近正样本对(相似数据)、推远负样本对(不相似数据)来学习数据特征。其核心在于编码器将输入映射到嵌入空间,使用相似度度量(如余弦相似度)衡量样本距离。关键损失函数包括Contrastive Loss(成对约束)、Triplet Loss(三元组边界)和InfoNCE Loss(多分类互信息最大化)。其中InfoNCE通过温度系数调节负样本权重,成为当前主流方法。对比学习通过数据增强构建正样本对,利用大量负样本防止特征坍缩,最终学习到具有判别性和不变性的数据表示。
2025-06-11 21:54:53
619
原创 RevIN(Reversible Instance Normalization)及其在时间序列中的应用
时间序列预测,比如销量预测场景中,分布常常随着时间变化,non-stationary,为了解决这一问题,通常使用归一化方法,本文介绍了时间序列预测中常用的归一化方法,并对比了其他归一化方法,最后提供代码
2025-05-13 22:46:52
757
原创 销量预测评估指标
销量预测的准确性对库存管理、成本控制和客户满意度至关重要。评估预测模型表现时,常用指标包括MAE、MSE/RMSE、MAPE、WAPE、SMAPE等,这些指标各有优缺点,适用于不同场景。MAE适合初步评估误差规模,RMSE对极端误差敏感,MAPE便于跨量级比较,WAPE适用于长尾分布数据,SMAPE对称处理预测值与实际值。偏差率评估指标如Bias、MPE、MdPE、WPE等,用于反映预测方向性偏差。业务中常用WAPE评估整体准确率,并可对其进行正负误差分解,以分别评估预测偏高和偏低的影响。根据实际业务需求,
2025-05-13 22:44:16
784
原创 时间序列数据集增强构造方案(时空网络建模)
本方案通过创新的批处理机制,在传统时间序列预测框架中引入实体关系建模能力,为复杂业务场景提供了有效的解决方案。建议根据实际业务需求调整依赖关系定义策略,并通过可视化工具持续监控模型学习效果。
2025-05-07 21:44:30
866
原创 时间序列数据集构建方案Pytorch
时间序列数据集的构建不同于图像、传统面板数据,其需要满足多实体、动态窗口、时间连续等性质,且容易产生数据泄漏。本文介绍了一种时间序列数据集的构建方法,可以高效地产生训练数据。
2025-05-07 21:41:20
1347
原创 扩散模型NCSN模型详解+代码
NCSN通过多级噪声和score matching方式拟合梯度场,避免了直接计算概率密度函数需要计算积分的困难,从而实现了去噪生成。
2025-04-28 09:00:00
630
原创 扩散模型DDPM模型详解+代码
扩散模型中的去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)是一种基于逐步噪声添加和去噪的生成模型。DDPM通过定义一个前向噪声扩散过程(Forward Process)和一个反向去噪过程(Reverse Process)来建模数据分布。本文介绍了DDPM的直观理解和数学推导,最后给出代码
2025-04-28 08:15:00
1949
原创 VQ-VAE 模型详解
VQVAE的编码结果是一个离散序列而非连续型向量,即它可以将连续型或离散型的数据编码为一个离散序列,并且允许解码器通过这个离散离散来重构原始输入,这就如同文本的Tokenizer——将输入转换为另一个离散序列,然后允许通过这个离散序列来恢复原始文本——所以它被视作任意模态的Tokenizer。在梯度反向传播的过程中使用了梯度直通估计同时优化码本、encoder和解码质量
2025-04-27 09:30:00
1052
原创 Factor VAE模型详解
相比Beta-VAE,FactorVAE在于直接针对变量间依赖性进行优化,避免了全局KL缩放带来的信息损失,从而在解耦能力和生成质量间达到更优平衡。传统变分自编码器(VAE)通过最大化证据下界(ELBO)学习数据的潜在表示,但其潜在变量可能存在纠缠(entanglement),即单个变量控制多个特征。FactorVAE是一种旨在提升潜在变量解耦能力的生成模型,通过显式地减少潜在变量间的依赖性来实现。
2025-04-27 09:15:00
840
原创 Beta-VAE背景原理及解耦机制分析
Beta-VAE的代码和标准VAE基本一致,除了增加一个β系数,但是其对KL散度的分解和潜在空间的理解思想值得学习和思考,具体代码可以参考VAE博客内容。
2025-04-26 15:53:02
863
原创 强化学习系列之马尔可夫决策过程
在介绍马尔可夫决策过程之前,我们先介绍它的简化版本:马尔可夫过程(Markov process,MP)以及马尔可夫奖励过程(Markov reward process,MRP)。通过与这两种过程的比较,我们可以更容易理解马尔可夫决策过程。其次,我们会介绍马尔可夫决策过程中的策略评估(policy evaluation),就是当给定决策后,我们怎么去计算它的价值函数。
2025-04-19 22:27:33
719
原创 生成模型StackGAN模型详解
StackGAN通过分阶段生成和条件增强技术,有效解决了高分辨率图像生成的难题,尤其在文本到图像任务中实现了质量和多样性平衡。其核心在于将复杂问题分解为多个简单子问题,并通过对抗训练逐步优化。后续工作如StackGAN++进一步优化了多阶段生成结构。本文详细解释了StackGAN的原理,并给出代码
2025-04-19 09:15:00
987
原创 生成模型CycleGAN模型详解
CycleGAN通过对抗训练和循环一致性约束,实现了无需配对数据的跨域图像转换。其核心创新在于循环一致性损失的引入,解决了无监督训练中的模式坍塌问题,同时结合PatchGAN提升生成细节。该模型在艺术风格迁移、数据增强等领域具有广泛应用。
2025-04-19 09:00:00
1348
原创 生成模型Conditional GAN模型详解
CGAN通过引入条件变量扩展了GAN的应用场景,实现了可控生成。其核心在于将条件信息嵌入生成器和判别器的输入,并通过对抗训练迫使生成数据与条件匹配。后续研究在条件嵌入方式、损失函数设计等方面持续改进,推动了可控生成模型的发展。
2025-04-18 09:30:00
841
原创 生成模型Wasserstein GAN原理详解
传统生成对抗网络(GAN)使用JS散度(Jensen-Shannon Divergence)作为分布距离度量,但存在梯度消失的问题。Wasserstein GAN的提出正是为了解决这些问题。本文详细解释了WGAN的原理并使用拉格朗日对偶问题推导了WGAN的损失函数,最后给出代码
2025-04-16 09:30:00
1248
原创 拉格朗日对偶问题
拉格朗日对偶问题是通过将原优化问题的约束条件转化为目标函数的一部分,构建对偶函数,并通过对偶函数的最大化来逼近原问题的最优解。本文从数学推导和直观理解两个方面综合解释拉格朗日对偶问题,容易理解且理论完整
2025-04-16 09:15:00
964
原创 强化学习Group Relative Policy Optimization(GRPO)原理详解
GRPO是DeepSeek提出一种RLHF-PPO算法变体,移除了Critic网络并采用组内相对价值作为Advantage。GRPO实现了很高的训练效率,同时也取得了不错的效果。本文详细介绍了GRPO的原理,并根据论文伪代码实现了torch代码
2025-04-14 10:50:09
1746
原创 生成对抗网络(GAN)原理详解
生成对抗网络(Generative Adversarial Network, GAN)由 Ian Goodfellow 等人于 2014 年提出,是一种通过对抗训练生成高质量数据的框架。其核心思想是让两个神经网络(生成器 GGG 和判别器 DDD)在博弈中共同进化:生成器试图生成逼真的假数据,而判别器试图区分真实数据与生成数据。这种对抗过程最终使生成器能够生成与真实数据分布高度接近的样本。本文详细推导了GAN的损失函数,并给出GAN存在的一些理论问题和改进建议,最后给出代码
2025-04-14 10:45:34
1449
原创 强化学习信用分配——以RLHF为例分析
在强化学习中,信用分配(Credit Assignment)是指**确定某个动作或状态对最终奖励的具体贡献**的过程。由于强化学习的奖励通常是延迟的(Delayed Reward),比如围棋,只有在胜利的时候有一个+1的奖励(稀疏奖励),智能体需要回溯分析哪些历史动作(”神之一手“)导致了后续的奖励或惩罚,这对学习效率至关重要。
2025-04-12 09:30:00
1171
原创 强化学习Direct Preference Optimization详解
DPO通过隐式参数化奖励函数,将复杂的RLHF流程简化为直接的策略优化问题。其损失函数直接最大化偏好数据的似然,避免了PPO的不稳定性和高计算成本。本文推导了DPO的损失函数并详细描述其原理和优劣,最后给出代码demo
2025-04-12 09:15:00
1529
原创 强化学习离线强化学习Q Learning Decision Transformer模型详解
Decision Transformer结合了条件策略方法与Transformer架构,在多个基准测试中展现出优越性能。但DT的stitching能力较差,当离线数据集仅包含次优轨迹时,这一问题尤为突出。另一方面,传统基于动态规划(如Q-learning)的强化学习方法虽不受此限制,但其学习过程存在不稳定性,尤其是在依赖函数逼近的离策略学习场景中。QDT通过融合动态规划(Q-learning)的优势来解决DT的局限性。本文先描述了stitching能力,然后给出QDT原理和代码
2025-04-11 10:11:47
805
原创 强化学习离线强化学习TrajectoryTransformer模型详解
Trajectory Transformer通过Beam Search的灵活改造,将序列生成技术扩展至强化学习领域:模仿学习验证了直接应用NLP范式的可行性;目标条件任务通过输入重排列实现物理因果性与目标关注的统一;离线RL通过回报估计与联合建模,在保证安全性的同时提升规划效果。这一框架的核心优势在于将复杂的强化学习问题转化为序列建模问题,复用NLP领域成熟的搜索技术,同时通过领域特定的结构调整规避传统强化学习的局限性。同时给出代码
2025-04-10 10:46:48
1234
原创 强化学习离线强化学习DecisionTransformer模型详解
Decision Transformer(DT)开启了强化学习的新范式,将强化学习转化为sequence预测问题,直接预测每步应该执行的动作,在离线场景和稀疏奖励情况下有较好的表现。DT中Return-to-Go(RTG)与自然语言处理(NLP)中的Prompt存在一定的相似性,但它们的核心机制和设计目标有所不同。Decision Transformer在某种程度上实现了“通过目标设定(RTG)诱导策略生成”,这一思想与Prompt工程有异曲同工之妙,但需结合强化学习的特性进行针对性设计。同时本文给出了代码
2025-04-10 10:44:00
970
原创 强化学习Double DQN模型详解
Double DQN 是 DQN 的重要改进,通过解耦动作选择与价值评估,在几乎不增加计算开销的前提下有效缓解过估计问题,提升了算法的稳定性和最终性能。尽管存在局限性,但其简洁高效的实现使其成为深度强化学习中的基础组件,常与其他技术(如 Prioritized Replay、Dueling DQN)结合,形成更强大的算法(如 Rainbow DQN)。
2025-04-09 22:59:20
666
原创 变分推断理解和数学推导
变分推断通过优化替代积分,将贝叶斯推断转化为可扩展的近似方法。其核心在于平衡计算效率与近似精度,是贝叶斯机器学习中的基石技术。本文推导了变分推断的数学公式,并给出对变分推断的深入思考和理解
2025-04-08 11:13:45
725
原创 VAE模型数学推导+代码
变分自编码器(VAE)是一种结合了自编码器和变分推断的生成模型,其核心在于通过最大化证据下界(ELBO)来学习数据的潜在表示。本文给VAE的算法原理及公式推导的详细步骤和代码实现
2025-04-08 11:12:13
614
原创 强化学习离线强化学习CQL模型详解
离线强化学习在一次性收集的静态数据集上学习最优策略,容易受到分布偏移和Q值overestimation问题。保守Q Learning CQL算法通过估计Q值的期望下界在离线RL中实现了保守且鲁棒的Q值估计,缓解了分布偏移和Q值overestimation问题。本文详细介绍了CQL的原理和损失函数推导,同时给出了torch代码
2025-04-07 10:09:40
1138
原创 强化学习分层强化学习HAC模型详解
分层智能体能够将复杂任务分解为仅需短序列决策的子任务集合,在解决序列决策任务时,相比非分层智能体具有更高的样本效率潜力。为实现这种加速学习的潜力,分层智能体需要能够,使得这些更简单的子问题可以同步解决。然而,多级策略的并行学习具有固有困难,因为其本质存在不稳定性:层级结构中某一层的策略变化可能导致更高层级的状态转移函数和奖励函数发生变化,从而使多级策略的联合学习变得困难。之前的分层强化学习通常使用bottom-up的训练方式。HAC旨在克服多级策略联合学习时产生的不稳定性问题。同时给出代码demo
2025-04-07 10:04:11
1147
原创 强化学习分层强化学习HDQN和Option-Critic框架对比
Hierarchical DQN 和 Option-Critic 均基于 **Options Framework** 的核心理念(分层决策、时间扩展动作),但设计目标和实现方式存在显著差异。本文分析了两种模型的原理区别,帮助更深刻理解分层强化学习
2025-04-06 09:30:00
735
原创 强化学习分层强化学习Hierarchical DQN模型详解
Hierarchical DQN通过层次化分解任务,结合时间与目标抽象,显著提升了复杂任务中的学习效率。通过高层与底层的协同,将稀疏奖励问题转化为密集的子目标追踪,是解决长期依赖与高维决策问题的有效范式。本文详细解释了HQN的原理,并给出HQN代码
2025-04-06 09:15:00
882
原创 强化学习分层强化学习Option-Critic模型
Option-Critic模型是分层强化学习HRL的一种算法,采用Options框架。通过Temporal Abstraction和分层结构,缓解了sparse reward和long range decision making sequence 问题。同时Options采用端到端学习,不需要人工设计。
2025-04-04 09:15:00
1350
原创 拉格朗日乘子法理解
拉格朗日乘子法通过引入乘子将约束条件融入目标函数,从而将约束问题转化为无约束优化问题。本文直观讲解了拉格朗日的原理和物理意义,以及不等式约束的西药条件KKT。同时类比深度模型的正则化项和拉格朗日的惩罚项,以及minmax对偶问题
2025-04-04 09:00:00
1356
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人