关于GAN网络的隐空间维度选择问题

最新推荐文章于 2024-07-13 15:49:04 发布

大脸萌

最新推荐文章于 2024-07-13 15:49:04 发布

阅读量3.1k

点赞数

分类专栏：人工智能

人工智能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一般来说，我们可以认为图像、文字、音频等数据是分布在低维流形空间上的。

GANs通过generator将隐空间的点映射到数据空间中，那么，隐空间的维数怎么选择呢？这是一个值得研究的问题。这里以图像为例进行分析。

首先，隐空间维数不能太低，太低了容易丢失mode，也会产生mode collapse。也就是说，隐空间的维数有个下界，高于这个下界才有可能避免mode丢失的问题。这个下界就是流形的内在维数（intrinsic dimension）。

什么叫流形的内在维数呢？下面给出的定义来自于文献[1]。

(流形定义) $\mathbb{R}^n$ 的子集 $\mathcal{M}$ 称为一个内在维数为 $m=m(\mathcal{M})$ ，具有p-光滑结构的流形，如果存在一个常数 $c_p(\mathcal{M})$ ，使得对于任意给定的 $x \in \mathcal{M}$ ，存在一组个向量 $v_1(x), v_2(x), \cdots, v_m(x) \in \mathbb{R}^n$ ， $\inf_{\gamma \in \mathbb{R}^m} \|x' - x - \sum_{j=1}^m \gamma_j v_j(x)\| \leq c_p(\mathcal{M}){\|x' - x\|}^{1+p}$ 对任意的 $x' \in \mathcal{M}$ 都成立。

简而言之，流形上的点可以用它周围的点逼近。如果对任意点，都可以用个周围的点进行逼近，那么流形的内在维数就是。请注意，与向量空间的维数定义不同，向量空间要求基底是固定的，而流形的基底是局部的，因点而异。

那么，怎么估算内在维数呢？很多学者提出了数值估算方法，这里介绍一种极大似然估计的方法，详细的推导参看文献[2]。

设我们有一些来自流形 $\mathcal{M}$ 的样本点 $\{X_i\}_{i=1}^N$ ，

其中， T_k(X_i) 表示 X_i 的k近邻与 X_i 之间的距离。

利用这个方法，我们可以估算数据集的内在维数。为了节省内存，以下实验结果均为随机采样10000个样本点的计算结果。实验发现，MNIST数据集的内在维数大约为6.5，动漫数据集的内在维数大约为21，而CelebA数据集的大约为20。需要注意的是，数据集的样本点可能远不止这么低内在维数，但是由于某些mode样本很少，例如动漫数据集的背景几乎每张图像都不一样，这些mode会被忽略，对内在维数没有贡献。

实验中我们对隐空间的选择不应低于这些下界。以MNIST为例，选择隐空间维数为10，能得到不错的效果。可以看到，生成的图像具有数字类型、倾斜角度等变化，它们都是隐空间内在维度的一部分。