深度学习——AE、VAE

说明:
💡💡💡本文后续更新和完善将在新账号展开,请移步新地址:
深度学习笔记——AE、VAE


历史文章

机器学习

机器学习笔记——损失函数、代价函数和KL散度
机器学习笔记——特征工程、正则化、强化学习
机器学习笔记——30种常见机器学习算法简要汇总
机器学习笔记——感知机、多层感知机(MLP)、支持向量机(SVM)
机器学习笔记——KNN(K-Nearest Neighbors,K 近邻算法)
机器学习笔记——朴素贝叶斯算法
机器学习笔记——决策树
机器学习笔记——集成学习、Bagging(随机森林)、Boosting(AdaBoost、GBDT、XGBoost、LightGBM)、Stacking
机器学习笔记——Boosting中常用算法(GBDT、XGBoost、LightGBM)迭代路径
机器学习笔记——聚类算法(Kmeans、GMM-使用EM优化)
机器学习笔记——降维

深度学习

深度学习笔记——优化算法、激活函数
深度学习——归一化、正则化
深度学习——权重初始化、评估指标、梯度消失和梯度爆炸
深度学习笔记——前向传播与反向传播、神经网络(前馈神经网络与反馈神经网络)、常见算法概要汇总
深度学习笔记——卷积神经网络CNN
深度学习笔记——循环神经网络RNN、LSTM、GRU、Bi-RNN
深度学习笔记——Transformer
深度学习笔记——3种常见的Transformer位置编码
深度学习笔记——GPT、BERT、T5
深度学习笔记——ViT、ViLT
深度学习笔记——DiT(Diffusion Transformer)
深度学习笔记——多模态模型CLIP、BLIP
深度学习笔记——AE、VAE
深度学习笔记——生成对抗网络GAN
深度学习笔记——模型训练工具(DeepSpeed、Accelerate)
深度学习笔记——模型压缩和优化技术(蒸馏、剪枝、量化)


提前预读:

图像生成发展起源:从VAE、VQ-VAE、扩散模型DDPM、DETR到ViT、Swin transformer

文生图模型演进:AE、VAE、VQ-VAE、VQ-GAN、DALL-E 等 8 模型



自编码器(Autoencoder, AE)

论文: 无标志性论文,最初可以追溯到20世纪80年代和90年代初的神经网络研究。有一个系统性的综述:Autoencoders

自编码器是一种无监督学习模型,主要用于数据的降维、特征提取或数据去噪。它由两个主要部分组成:
在这里插入图片描述

  1. 编码器(Encoder)将输入数据压缩成低维的隐藏表示(即编码),这一部分负责从原始数据中提取特征。假设输入是 X X X,编码器的目标是找到一种映射 f ( X ) = Z f(X) = Z f(X)=Z,其中 Z Z Z 是低维空间的表示。

  2. 解码器(Decoder)将低维的隐藏表示还原回原始数据的近似值,解码器试图从编码 Z 中重建输入 X。这一部分的映射是 g ( Z ) = X ^ g(Z) = \hat{X} g(Z)=X^,其中 X ^ \hat{X} X^是还原后的数据。

训练过程: X − > Z − > X ^ X -> Z -> \hat{X} X>Z>X^,基于无标签数据,通过反向传播和梯度下降来更新编码器和解码器的权重。

目标:让重构的 X ^ \hat{X} X^ 尽量接近输入 X X X,即最小化 重构误差(通常采用均方误差 MSE 或其他损失函数)。

优点:

  • 可以用于数据降维,类似于 PCA,但更适合处理非线性数据。
  • 用于图像去噪、异常检测等任务。

缺点:

  • 学到的低维表示可能对生成新样本的能力有限,只是压缩信息,而不具备对输入数据的生成建模能力
  • 通常不适合处理概率问题,无法给出潜在变量的分布信息。

由上可知,AE的意义在于:

  1. 数据降维: 模型训练结束后,我们就可以认为 Z Z Z编码囊括了输入数据 X X X的大部分信息,也因此我们可以直接利用 Z Z Z表达原始数据。
  2. 数据重建: 解码器只需要输入某些有表征信息的编码 Z Z Z(非随机噪声),就能够输出高维的图片数据 X ^ \hat{X} X^

能否把解码器模型直接当做生成模型,用于新图像的生成(非重建),在低维空间中随机生成某些向量z,再喂给解码器f(z)来生成图片呢?

  • 理论上可以这么做,但问题在于绝大多数随机生成的低维向量 Z Z Z,都是没有意义的噪声,之所以如此,原因在于没有显性的对的分布进行建模,我们并不知道哪些能够生成有用的图片。
  • VAE(自变分编码器,Variational Autoencoders)则是在AE的基础上,显性的对 Z Z Z 的分布 p ( z ) p(z) p(z) 进行建模(比如符合某种常见的概率分布),使得自编码器成为一个合格的生成模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值