贝塔西塔-CSDN博客

原创 Score-Based SDE(Stochastic Differential Equations)生成模型详解，以VP-SDE为例

Score-Based SDE模型通过随机微分方程描述数据生成过程，包括前向扩散和反向生成两个阶段。VP-SDE作为典型实现，其前向过程将数据渐变为高斯分布；反向过程通过逐步采样还原数据，本文从理论上证明了VP-SDE和DDPM的等价性，统一了对数梯度和噪声预测视角

2025-06-12 09:15:00 649

原创 Score-Based SDE(Stochastic Differential Equations)生成模型详解

本文介绍了基于Score-Based SDE的生成模型原理与实现。该模型通过前向SDE将数据逐步扩散为噪声，再通过反向SDE结合分数函数进行生成。文章详细推导了VE-SDE的损失函数，并提供了PyTorch实现代码框架，包括SDE定义、评分网络结构、损失计算和采样过程。模型通过神经网络学习数据分布的分数(梯度)来指导生成过程，相比传统生成方法具有理论严谨性和高质量生成能力。

2025-06-12 09:00:00 750

原创 CLIP多模态模型详解

CLIP是一种突破性多模态模型，通过对比学习将图像和文本映射到统一语义空间。其核心创新在于：双编码器架构（图像/文本）、零样本迁移能力、利用4亿互联网图文对预训练。相比传统CV模型，CLIP摆脱人工标注依赖，仅用文本描述即可推理。应用包括零样本分类、图文检索、图像生成引导等。局限性包括计算成本高、细粒度不足和数据偏差。作为多模态AI基石，CLIP推动了DALL-E等AIGC模型发展，开创了无监督预训练在多模态领域的新范式。

2025-06-11 21:56:25 780

原创对比学习（Contrastive Learning）方法详解

对比学习是一种自监督表示学习方法，通过拉近正样本对（相似数据）、推远负样本对（不相似数据）来学习数据特征。其核心在于编码器将输入映射到嵌入空间，使用相似度度量（如余弦相似度）衡量样本距离。关键损失函数包括Contrastive Loss（成对约束）、Triplet Loss（三元组边界）和InfoNCE Loss（多分类互信息最大化）。其中InfoNCE通过温度系数调节负样本权重，成为当前主流方法。对比学习通过数据增强构建正样本对，利用大量负样本防止特征坍缩，最终学习到具有判别性和不变性的数据表示。

2025-06-11 21:54:53 619

原创 RevIN（Reversible Instance Normalization）及其在时间序列中的应用

时间序列预测，比如销量预测场景中，分布常常随着时间变化，non-stationary，为了解决这一问题，通常使用归一化方法，本文介绍了时间序列预测中常用的归一化方法，并对比了其他归一化方法，最后提供代码

2025-05-13 22:46:52 757

原创销量预测评估指标

销量预测的准确性对库存管理、成本控制和客户满意度至关重要。评估预测模型表现时，常用指标包括MAE、MSE/RMSE、MAPE、WAPE、SMAPE等，这些指标各有优缺点，适用于不同场景。MAE适合初步评估误差规模，RMSE对极端误差敏感，MAPE便于跨量级比较，WAPE适用于长尾分布数据，SMAPE对称处理预测值与实际值。偏差率评估指标如Bias、MPE、MdPE、WPE等，用于反映预测方向性偏差。业务中常用WAPE评估整体准确率，并可对其进行正负误差分解，以分别评估预测偏高和偏低的影响。根据实际业务需求，

2025-05-13 22:44:16 784

原创时间序列数据集增强构造方案（时空网络建模）

本方案通过创新的批处理机制，在传统时间序列预测框架中引入实体关系建模能力，为复杂业务场景提供了有效的解决方案。建议根据实际业务需求调整依赖关系定义策略，并通过可视化工具持续监控模型学习效果。

2025-05-07 21:44:30 866

原创时间序列数据集构建方案Pytorch

时间序列数据集的构建不同于图像、传统面板数据，其需要满足多实体、动态窗口、时间连续等性质，且容易产生数据泄漏。本文介绍了一种时间序列数据集的构建方法，可以高效地产生训练数据。

2025-05-07 21:41:20 1347

原创扩散模型NCSN模型详解+代码

NCSN通过多级噪声和score matching方式拟合梯度场，避免了直接计算概率密度函数需要计算积分的困难，从而实现了去噪生成。

2025-04-28 09:00:00 630

原创扩散模型DDPM模型详解+代码

扩散模型中的去噪扩散概率模型（Denoising Diffusion Probabilistic Models, DDPM）是一种基于逐步噪声添加和去噪的生成模型。DDPM通过定义一个前向噪声扩散过程（Forward Process）和一个反向去噪过程（Reverse Process）来建模数据分布。本文介绍了DDPM的直观理解和数学推导，最后给出代码

2025-04-28 08:15:00 1949

原创 VQ-VAE 模型详解

VQVAE的编码结果是一个离散序列而非连续型向量，即它可以将连续型或离散型的数据编码为一个离散序列，并且允许解码器通过这个离散离散来重构原始输入，这就如同文本的Tokenizer——将输入转换为另一个离散序列，然后允许通过这个离散序列来恢复原始文本——所以它被视作任意模态的Tokenizer。在梯度反向传播的过程中使用了梯度直通估计同时优化码本、encoder和解码质量

2025-04-27 09:30:00 1052

原创 Factor VAE模型详解

相比Beta-VAE，FactorVAE在于直接针对变量间依赖性进行优化，避免了全局KL缩放带来的信息损失，从而在解耦能力和生成质量间达到更优平衡。传统变分自编码器（VAE）通过最大化证据下界（ELBO）学习数据的潜在表示，但其潜在变量可能存在纠缠（entanglement），即单个变量控制多个特征。FactorVAE是一种旨在提升潜在变量解耦能力的生成模型，通过显式地减少潜在变量间的依赖性来实现。

2025-04-27 09:15:00 840

原创信息论核心概念详解

介绍了熵、条件熵、联合熵、互信息的概念和公式，对机器学习和深度学习的各种模型、损失函数有帮助

2025-04-26 16:01:45 750

原创 Beta-VAE背景原理及解耦机制分析

Beta-VAE的代码和标准VAE基本一致，除了增加一个β系数，但是其对KL散度的分解和潜在空间的理解思想值得学习和思考，具体代码可以参考VAE博客内容。

2025-04-26 15:53:02 863

原创 GAN模型在缺失值填充/图像修复的应用

GAN模型在缺失值填充、图像修复中的应用框架

2025-04-26 15:48:20 739

原创强化学习系列之马尔可夫决策过程

在介绍马尔可夫决策过程之前，我们先介绍它的简化版本：马尔可夫过程（Markov process，MP）以及马尔可夫奖励过程（Markov reward process，MRP）。通过与这两种过程的比较，我们可以更容易理解马尔可夫决策过程。其次，我们会介绍马尔可夫决策过程中的策略评估（policy evaluation），就是当给定决策后，我们怎么去计算它的价值函数。

2025-04-19 22:27:33 719

原创生成模型StackGAN模型详解

StackGAN通过分阶段生成和条件增强技术，有效解决了高分辨率图像生成的难题，尤其在文本到图像任务中实现了质量和多样性平衡。其核心在于将复杂问题分解为多个简单子问题，并通过对抗训练逐步优化。后续工作如StackGAN++进一步优化了多阶段生成结构。本文详细解释了StackGAN的原理，并给出代码

2025-04-19 09:15:00 987

原创生成模型CycleGAN模型详解

CycleGAN通过对抗训练和循环一致性约束，实现了无需配对数据的跨域图像转换。其核心创新在于循环一致性损失的引入，解决了无监督训练中的模式坍塌问题，同时结合PatchGAN提升生成细节。该模型在艺术风格迁移、数据增强等领域具有广泛应用。

2025-04-19 09:00:00 1348

原创生成模型Conditional GAN模型详解

CGAN通过引入条件变量扩展了GAN的应用场景，实现了可控生成。其核心在于将条件信息嵌入生成器和判别器的输入，并通过对抗训练迫使生成数据与条件匹配。后续研究在条件嵌入方式、损失函数设计等方面持续改进，推动了可控生成模型的发展。

2025-04-18 09:30:00 841

原创生成模型InfoGAN详解

InfoGAN对隐变量进行接偶，可以隐式发现生成的控制信息，本文介绍了InfoGAN的原理，同时给出了代码

2025-04-18 09:15:00 1143

原创生成模型Wasserstein GAN原理详解

传统生成对抗网络（GAN）使用JS散度（Jensen-Shannon Divergence）作为分布距离度量，但存在梯度消失的问题。Wasserstein GAN的提出正是为了解决这些问题。本文详细解释了WGAN的原理并使用拉格朗日对偶问题推导了WGAN的损失函数，最后给出代码

2025-04-16 09:30:00 1248

原创拉格朗日对偶问题

拉格朗日对偶问题是通过将原优化问题的约束条件转化为目标函数的一部分，构建对偶函数，并通过对偶函数的最大化来逼近原问题的最优解。本文从数学推导和直观理解两个方面综合解释拉格朗日对偶问题，容易理解且理论完整

2025-04-16 09:15:00 964

原创强化学习Group Relative Policy Optimization(GRPO)原理详解

GRPO是DeepSeek提出一种RLHF-PPO算法变体，移除了Critic网络并采用组内相对价值作为Advantage。GRPO实现了很高的训练效率，同时也取得了不错的效果。本文详细介绍了GRPO的原理，并根据论文伪代码实现了torch代码

2025-04-14 10:50:09 1746

原创生成对抗网络（GAN）原理详解

生成对抗网络（Generative Adversarial Network, GAN）由 Ian Goodfellow 等人于 2014 年提出，是一种通过对抗训练生成高质量数据的框架。其核心思想是让两个神经网络（生成器 GGG 和判别器 DDD）在博弈中共同进化：生成器试图生成逼真的假数据，而判别器试图区分真实数据与生成数据。这种对抗过程最终使生成器能够生成与真实数据分布高度接近的样本。本文详细推导了GAN的损失函数，并给出GAN存在的一些理论问题和改进建议，最后给出代码

2025-04-14 10:45:34 1449

原创强化学习信用分配——以RLHF为例分析

在强化学习中，信用分配（Credit Assignment）是指**确定某个动作或状态对最终奖励的具体贡献**的过程。由于强化学习的奖励通常是延迟的（Delayed Reward），比如围棋，只有在胜利的时候有一个+1的奖励（稀疏奖励），智能体需要回溯分析哪些历史动作（”神之一手“）导致了后续的奖励或惩罚，这对学习效率至关重要。

2025-04-12 09:30:00 1171

原创强化学习Direct Preference Optimization详解

DPO通过隐式参数化奖励函数，将复杂的RLHF流程简化为直接的策略优化问题。其损失函数直接最大化偏好数据的似然，避免了PPO的不稳定性和高计算成本。本文推导了DPO的损失函数并详细描述其原理和优劣，最后给出代码demo

2025-04-12 09:15:00 1529

原创强化学习RLHF详解

RLHF通过将人类偏好融入强化学习框架，显著提升了模型对齐复杂目标的能力，本文描述了RLHF的原理，并给出代码示例

2025-04-11 10:14:20 1265

原创强化学习离线强化学习Q Learning Decision Transformer模型详解

Decision Transformer结合了条件策略方法与Transformer架构，在多个基准测试中展现出优越性能。但DT的stitching能力较差，当离线数据集仅包含次优轨迹时，这一问题尤为突出。另一方面，传统基于动态规划（如Q-learning）的强化学习方法虽不受此限制，但其学习过程存在不稳定性，尤其是在依赖函数逼近的离策略学习场景中。QDT通过融合动态规划（Q-learning）的优势来解决DT的局限性。本文先描述了stitching能力，然后给出QDT原理和代码

2025-04-11 10:11:47 805

原创强化学习离线强化学习TrajectoryTransformer模型详解

Trajectory Transformer通过Beam Search的灵活改造，将序列生成技术扩展至强化学习领域：模仿学习验证了直接应用NLP范式的可行性；目标条件任务通过输入重排列实现物理因果性与目标关注的统一；离线RL通过回报估计与联合建模，在保证安全性的同时提升规划效果。这一框架的核心优势在于将复杂的强化学习问题转化为序列建模问题，复用NLP领域成熟的搜索技术，同时通过领域特定的结构调整规避传统强化学习的局限性。同时给出代码

2025-04-10 10:46:48 1234

原创强化学习离线强化学习DecisionTransformer模型详解

Decision Transformer（DT）开启了强化学习的新范式，将强化学习转化为sequence预测问题，直接预测每步应该执行的动作，在离线场景和稀疏奖励情况下有较好的表现。DT中Return-to-Go（RTG）与自然语言处理（NLP）中的Prompt存在一定的相似性，但它们的核心机制和设计目标有所不同。Decision Transformer在某种程度上实现了“通过目标设定（RTG）诱导策略生成”，这一思想与Prompt工程有异曲同工之妙，但需结合强化学习的特性进行针对性设计。同时本文给出了代码

2025-04-10 10:44:00 970

原创强化学习Double DQN模型详解

Double DQN 是 DQN 的重要改进，通过解耦动作选择与价值评估，在几乎不增加计算开销的前提下有效缓解过估计问题，提升了算法的稳定性和最终性能。尽管存在局限性，但其简洁高效的实现使其成为深度强化学习中的基础组件，常与其他技术（如 Prioritized Replay、Dueling DQN）结合，形成更强大的算法（如 Rainbow DQN）。

2025-04-09 22:59:20 666

原创 VS Code Markdown渲染配置

【代码】VS Code Markdown渲染配置。

2025-04-09 22:55:29 266

原创变分推断理解和数学推导

变分推断通过优化替代积分，将贝叶斯推断转化为可扩展的近似方法。其核心在于平衡计算效率与近似精度，是贝叶斯机器学习中的基石技术。本文推导了变分推断的数学公式，并给出对变分推断的深入思考和理解

2025-04-08 11:13:45 725

原创 VAE模型数学推导+代码

变分自编码器（VAE）是一种结合了自编码器和变分推断的生成模型，其核心在于通过最大化证据下界（ELBO）来学习数据的潜在表示。本文给VAE的算法原理及公式推导的详细步骤和代码实现

2025-04-08 11:12:13 614

原创强化学习离线强化学习CQL模型详解

离线强化学习在一次性收集的静态数据集上学习最优策略，容易受到分布偏移和Q值overestimation问题。保守Q Learning CQL算法通过估计Q值的期望下界在离线RL中实现了保守且鲁棒的Q值估计，缓解了分布偏移和Q值overestimation问题。本文详细介绍了CQL的原理和损失函数推导，同时给出了torch代码

2025-04-07 10:09:40 1138

原创强化学习分层强化学习HAC模型详解

分层智能体能够将复杂任务分解为仅需短序列决策的子任务集合，在解决序列决策任务时，相比非分层智能体具有更高的样本效率潜力。为实现这种加速学习的潜力，分层智能体需要能够，使得这些更简单的子问题可以同步解决。然而，多级策略的并行学习具有固有困难，因为其本质存在不稳定性：层级结构中某一层的策略变化可能导致更高层级的状态转移函数和奖励函数发生变化，从而使多级策略的联合学习变得困难。之前的分层强化学习通常使用bottom-up的训练方式。HAC旨在克服多级策略联合学习时产生的不稳定性问题。同时给出代码demo

2025-04-07 10:04:11 1147

SQL server 2008教程

空空如也