PaperNotes(14)-QRGAN

小陈同学-陈百万

已于 2022-03-19 13:53:15 修改

阅读量345

点赞数

分类专栏： PaperNotes 文章标签：机器学习

于 2021-03-11 23:59:34 首次发布

本文链接：https://blog.csdn.net/sinat_40624829/article/details/114525396

版权

PaperNotes 专栏收录该内容

22 篇文章 4 订阅

订阅专栏

QRGAN

2 Quantile regression gan
3 experiments and results

ICLR2021 under review

2 Quantile regression gan

We train our discriminator to predict quantile values of realisticity using quantile regression. Then, we train our generator to minimize the difference of quantile values of real and fake samples to minimize 1-Wasserstein distance between the two.

用分位数回归训练D网络,使得他可以预测真实性的分位数(多变量分布的分位数怎么就这么计算了!!!)
最小化真实样本和生成样本的分位数差异以最小化两者之间的1-W距离.

逻辑不太对吧,先计算才能最小吧.

2.1 quantile regression for minimization of 1-wasserstein distance

回顾了Ｗ距离的分位数计算方式，说明QR的loss 只是近似计算了Ｗ距离．

2.2 QRGAN

N 个分位数( $F^{_1}(\tau_0)$ 不需要,就是N个分位数), 对应的分位点为 $\tau_0 = 0, \tau_i = \frac{i}{N+1}, \tau_N = 1$ .
本文作者认为Huber loss 对梯度的平滑使得只是分位数回归的近似,所有本文不用.
离差 $u = y - y^{'}$ ,y为目标,y’为网络输出.本文基于DCGAN的结构,判别网络输出N维度的分位数的值,而非单个评分标量.
真实数据的目标是 $a$ (但是决定这梯度的符号呀),生成数据的目标是 $b$ .
判别器的输出是关于输入batch 的真实性分布分位数, (就像Wgan一样)我们简单的将(真实性)认为是对输出求均值.即对于batch size M ,判别器的输出为 $o$ ,则有 $D_{\tau(batch)} = \frac{1}{M}\sum_{i=1}^Mo_{i,\tau}$ (mini batch 的输出 N个维度对Mini batch size求均值,不知道有啥用呀)

判别器的目标函数:

$\min_D V _{QRGAN}(D) = \frac{1}{N}\sum_{\hat{\tau}\in(\hat{\tau}_1,...,\hat{\tau}_N)}[\rho_{\hat{\tau}}(D_{\hat{\tau}}(x_{real})-a)+\rho_{\hat{\tau}}(D_{\hat{\tau}}(x_{fake})-b)]$

$\rho_{\tau}(u) =\left\{ \begin{aligned} u.(\tau-1), && u<=0\\ u.\tau, && u>0 \end{aligned} \right.$

a和b只是一个符号?怎么看不出怎么感觉都是是向量又是标量呢?
”realisticity” should not be bounded to the specific number. 真实性不应该限制于特定的数量,所以将a和b设置为 $a=+\infty,b= -\infty$ 这该怎么计算? 但是直接这么设置使得D 网络的输出一直增大,不会收敛,所以设置了L1-平方正则项目(L2正项目会使得D的输出饱和,造成梯度消失问题,G训练缓慢).

生成器的目标函数:
两个随机变量之间的1W距离(正宗的计算方式，而不是ＱＲ回归目标的近似):
$W_1(U,Y)=\int_0^1|F^{-1}_Y(\omega)-F^{-1}_Y(\omega)|^1d\omega$

用Ｄ计算 $D_{\hat {\tau}}(x_{real})$ 和 $D_{\hat {\tau}}(x_{fake})$ ,通过　最小化这两者的差异　训练　生成器．
即生成器的目标函数为：
$\min_{G}V_{QRGAN}(G)=\frac{1}{N}\sum_{\hat{\tau}\in(\hat{\tau}_1,...,\hat{\tau}_N)}|D_{\hat {\tau}}(x_{real})-D_{\hat {\tau}}(x_{fake})|$

文章将 $D_{\hat {\tau}}(x_{real})$ 换成 $\infty$ 　避免 $D_{\hat {\tau}}(x_{real})$ 的更新使得Ｄ的输出减小，　因为fake 数据的额分位数　往往会大于　real 数据　（会造成什么问题么？）

继而生成器的目标函数为：
$\min_{G}V_{QRGAN}(G)=\frac{1}{N}\sum_{\hat{\tau}\in(\hat{\tau}_1,...,\hat{\tau}_N)}|\infty-D_{\hat {\tau}}(x_{fake})|$
(都用正无穷代替了，绝对值还有什么意义么)
最小化上式，等价于最大化：
$\max_{G}V_{QRGAN}(G)=\frac{1}{N}\sum_{\hat{\tau}\in(\hat{\tau}_1,...,\hat{\tau}_N)}D_{\hat {\tau}}(x_{fake})$

2.3 comparison to other GANs

当 $\infty,b = -\infty, N = 1, \lambda= 0.5$ 时,本文D的目标函数与WGAND的目标函数一致(没看出来,WGAN是最大,本文是最小). 本文G的目标函数与WGAN中G的的目标函数一致(基本能说的过去), 文章说QRGAN可以看做WGAN的改进版本,改进的地方为不再需要为近似的W距离再考虑lipschitz 限制,这一切都得益于QR回归.

算法框架:
在这里插入图片描述

3 experiments and results

mode collaps 用混合高斯分布ring8 和grid 25 做可视化实验(之后做实验可以考虑一下)

模式坍塌的形成原因多种多样,其中之一:判别器造成的局部最小值.
还有一个点线图用来展示模式坍塌用的.

图像生成指标: 只用FID,文章说的是IS有些情况下会比FID糟糕(待确认)

FID的采样间隔是4000个iter.

FID指标:QR优于NSGAN,LSGAN(三个数据集合的效果不是很一致), 与WGANFID效果相当,但速度更快.

小陈同学-陈百万

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PaperNotes(14)-QRGAN

GANs训练不稳定问题相关文章1.DCGAN2.Big-GAN综述-分析-归纳1.DCGAN2016-ICLRabstract，related work --没说稳定性的问题DCGAN的出发点：CNN结构+GANs模型学习，质量优良的图像表征。其后将生成器或者和判别器作为监督学习的特征提取器3. aproach and model architecture也有很多人尝试将CNN与GAN模型结合，但是没有成功。作者认为在GANs模型提出后关于GAN模型学习过程的理解和可视化的工作缺乏，并且G
复制链接

扫一扫

专栏目录