VAE原理详细解释（读书笔记）

最新推荐文章于 2025-04-04 11:55:00 发布

是时候换个适合有300多粉丝的名字了

最新推荐文章于 2025-04-04 11:55:00 发布

阅读量2.4k

点赞数 3

分类专栏：神经网络文章标签：人工智能神经网络

本文链接：https://blog.csdn.net/qq_43331366/article/details/121260881

版权

本文介绍了变分自编码器(VAE)的基本思想和工作原理，包括其作为无监督学习模型的角色，以及如何通过编码器和解码器进行数据降维和特征提取。VAE的核心在于利用变分近似来解决隐变量的后验分布，通过引入近似后验分布q(z|x)来近似真实后验分布p(z|x)，并通过KL散度调整分布差异。文章详细阐述了VAE的结构和计算细节，包括如何通过重参数化技巧进行采样，并探讨了损失函数的构成和优化过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

内容大部分参考《深入浅出图神经网络》
有些细节加入了自己的思考，可能有疏漏错误之处，请各位看官多多指教！

背景

深度学习的优势在于自动学习特征，卷积神经网络将表示学习与任务学习结合起来，其利用图像标签进行有监督的学习，可以学习到有判别性的特征对图像进行分类。
自编码器也是一种表示学习模型，但它没有利用标签信息进行监督，是一种无监督的学习模型，可以用于数据降维和特征提取。

基本思路

将输入映射到某个特征空间，再从该空间映射回输入空间中进行重构。其结构是由编码器和解码器组成，前者从输入数据提取特征，后者基于提取的特征重构输入数据。模型训练结束后，使用编码器进行特征提取。

最简单的自编码器有3层：1个输入层、1个隐藏层、1个输出层。从输入层到隐藏层为编码器，从隐藏层到输出层为解码器。

VAE原理

变分自编码器可以用于生成新的样本数据。其本质是生成模型。
假设样本服从某个复杂分布 $P (x)$ ，生成模型的目的是对分布建模，这样就可以从分布中采样得到新的样本数据。
一般来说，每个样本点都可能受到一些因素的控制，比如对于手写数字，需要决定写什么数字、数字大小、笔画粗细等，这些因素被称为隐变量。用向量 $z$ 表示隐变量，概率密度函数为 $p (z)$ ,同时有一个这样的函数 $f(z;\theta)$ 可以把从 $p (z)$ 中采样的数据 $z$ 映射为与 $X$ 比较相似的样本数据，即概率 $p (X ∣ z)$ 更高。
$p(X)=\int_z p(X|z)p(z)dz \tag{1}$ $p (X)$ 即为本问题的目标函数，希望其最大。

三个问题：

1.隐变量分布 $p (z)$ 如何选择；
2.条件分布 $p (X ∣ z)$ 的选择；
3.(1)中积分的计算

对于隐变量的选择，VAE假设 $z$ 的每个维度都没有明确含义，仅仅要求采样方便，因此假设 $\sim N(0,I)$ . 而 $p (X ∣ z)$ 的选择通常也是正态分布：
$p(x|z)=N(f(z;\theta),\sigma^2I)$ 注： $f(z;\theta)$ 即解码器，其中 $\sigma^2$ 为超参数。