8月28日计算机视觉理论学习笔记——图像生成

最新推荐文章于 2024-01-24 01:52:35 发布

Ashen_0nee

最新推荐文章于 2024-01-24 01:52:35 发布

阅读量883

点赞数

文章标签：计算机视觉学习人工智能

本文链接：https://blog.csdn.net/Ashen_0nee/article/details/126568558

版权

前言

本文为8月28日计算机视觉理论学习笔记——图像生成，分为三个章节：

已知观察变量 $X$ 和隐含变量 $z$ ，对 $p (z ∣ X)$ ，根据输入的观察变量 $x$ 得到隐含变量 $z$ 出现的可能性。

对 $p (X ∣ z)$ 建模，输入是隐含变量，输出是观察变量的概率。

模型目标：
- 训练数据集的模型： $x\sim p_{train}(x)$ ；
- 生成样本的模型： $x\sim p_{model}(x)$ ；
- 令 $p_{model}(x) = p_{train}(x)$ .

如图所示，左侧把原始图像卷积成向量；解卷积层则把这些向量解码回原始图像。

误差包括：
- 生成误差：衡量网络重构图像精确度的均方误差；
- 潜在误差：衡量潜在变量在单位高斯分布上的契合程度；
- 总的目标函数：
  $\mathcal{L} (x, \hat{x}) + \sum_{j}\ KL(q_j (z|x)||p(z))$

实现方式：

相比原始 GAN 改进了：

Generator： 应用分布相同的 B 残差块，每个残差块有两个卷积层。
- 卷积层后加上 Batch-Normalization，用 PReLu 作为激活函数；
- 卷积核 3×3，64 个feature maps；
- 跃层连接。

Discriminator： 由连续的卷积块组成，包括：卷积层、Leaky ReLU层和 BN 层。
- 卷积核 3×3；
- 最后是两个 dense 层，通过 sigmoid 鉴别判断。

关注