论文阅读23 - Mixture Density Networks(MDN)混合密度网络理论分析

最新推荐文章于 2023-03-29 09:28:08 发布

SpadeA_Iverxin

最新推荐文章于 2023-03-29 09:28:08 发布

阅读量6.6k

点赞数 13

分类专栏：论文阅读机器学习文章标签：机器学习人工智能神经网络深度学习

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/109692063

版权

论文阅读同时被 2 个专栏收录

32 篇文章 5 订阅

订阅专栏

机器学习

14 篇文章 2 订阅

订阅专栏

Mixture Density Networks

最近看论文经常会看到在模型中引入不确定性(Uncertainty)。尤其是MDN(Mixture Density Networks)在World Model这篇文章多次提到。之前只是了解了个大概。翻了翻原版论文和一些相关资料进行了整理。

1. 直观理解：

混合密度网络通常作为神经网络的最后处理部分。将某种分布（通常是高斯分布）按照一定的权重进行叠加，从而拟合最终的分布。

如果选择高斯分布的MDN，那么它和GMM（高斯混合模型 Gaussian Mixture Model）有着相同的效果。但是他们有着很明显的区别：

MDN的均值、方差、每个模型的权重是通过神经网络产生的，利用最大似然估计作为Loss函数进行反向传播从而确定网络的权重（也就是确定一个较好的高斯分布参数）
GMM的均值、方差、每个模型的权重是通过估计出来的，通常使用EM算法来通过不断迭代确定。

GMM的详解以及为什么要用EM而不是极大似然估计来优化参数，请见这个博客

总之，MDN的思想与GMM一样，将模型混合的思想与神经网络相结合。在回归问题上通常都有很好的表现。例如，论文中提到的一个翻转的x,t翻转的例子：

如果x是训练数据，t是我们的label：

普通的神经网络，使用sum-of-squares error作为loss可以得到一个较好的拟合效果。
同样的数据，将x和t的数据翻转(原来x的数据作为标签，原来t的数据作为训练集, tmp = x, x = t, t = tmp)：

使用sum-of-squares error作为loss似乎并没有捕捉到我们的走势。
MDN效果如何呢

先上效果图（来自原版论文）。下图绘制的是可能性最大的点（分布的均值）。可见基本上可以捕捉到这个趋势。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oPgn4RpM-1605340386543)(Untitled.assets/image-20201114140657278.png)]

在输出的分布内进行采样获取预测，图片来自：

2. 算法细节

2.1. 结构

参数化表示：

$C$ ：要混合的分布个数。是用户需要制定的参数。例如我们需要混合5个高斯分布作为最终结果，那么C = 5；

$\alpha$ ：每个分布的权重参数。网络输出的参数

$D$ ：某一种被混合的分布，如果是高斯分布，那么 $KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲D$ 就应该用 $N$ 表示。

$\lambda$ ：分布的一些参数，高斯分布则包括 $\mu$ 和 $\sigma$ 。网络输出的参数

需要注意的是：混合的分布可以是任意的。

以高斯分布为例，网络结构如下：

$\alpha$ (alpha)的和应该等于1，即 $\sum^{C}_{c} \alpha_c = 1$ 。所以我们可以在使用softmax激活函数来解决。
$\sigma$ (sigma)>0。可以保证这个的方法有很多，在Mixture Density Networks中使用指数激活： $\sigma = exp(z)$ 。指数可能会引起数值不稳定，出现无穷大。可以使用变种的ELU [3]，即 $\sigma = ELU(\sigma)+1$
$\mu$ 的范围是否要确定区间，可以根据实际问题。例如价格预测，不可能出现负的，就可以选择相关的激活函数来固定区间大于0.

2.2 Loss设计：

损失函数使用的极大似然估计。极大似然估计认为我们采样出来的都是那些出现概率最大的数。所以我们希望我们需要最大化的似然函数为（这里使用了平均值，即每个分布的似然函数大小）：

极大似然估计公式： $L(\theta) = L(x_1,x_2...x_n ; \theta) = \prod_{i = 1 } ^n p(x_i; \theta)$ 。用多个分布混合，则 $p(x_i;\theta) = \sum_k ^K a_k p_k(x_i ; \theta)$ 。下式中 $x_i$ 为 $y_n|x_n$

$L(\theta) = \frac{1}{N} \prod_n ^N \sum_k ^K a_k p_k(y_n|x_n) \\ ln(L(\theta)) =\frac{1}{N} \sum_n ^N \log \{ \sum_k ^K \alpha_k p_k(y_n|x_n)\}$

N 样本总数

K 分布的数量

$a_k$ 是当前分布的权重

$p_k$ 是当前分布的概率

$ \sum_k ^K a_k p_k(y_n|x_n)$ 就是 $x_n$ 样本出现的概率。对应似然函数中的 $p(x_i; \theta)$ 。是k个分布按照权重 $\alpha$ 累加的结果。

优化器一般都是梯度下降，用来最小化目标函数，所以我们要在上式加一个负号，作为优化函数，这样就是梯度上升最大化上式。
$Loss(\theta) = -ln(L(\theta))$
如果是N个高斯分布，那么我们的损失函数：
$Loss(\theta) = -\frac{1}{N} \sum_1 ^N \log \{\sum_k \alpha_k N(y_n|\mu_k,\sigma^2_k)\}$

$N(y|\mu,\sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{\frac{-(x-\mu)^2}{2\sigma^2}}$

3. 总结

MDN实现简单，而且可以直接模块化的连接到神经网络的后端。他的结果可以得到一个概率范围，相对有deterministic类只输出一个结果，往往有更好的健壮性。[3][4]中有相关代码实现。

4. reference：

[1]. Christopher M. Bishop, Mixture Density Networks (1994)

[2]. Blog-详解EM算法与混合高斯模型(Gaussian mixture model, GMM)

[3]. Blog-A Hitchhiker’s Guide to Mixture Density Networks

[4]. Blog-Mixture Density Networks

SpadeA_Iverxin

关注

13
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
论文阅读23 - Mixture Density Networks(MDN)混合密度网络理论分析

Mixture Density Networks最近看论文经常会看到在模型中引入不确定性(Uncertainty)。尤其是MDN(Mixture Density Networks)在World Model这篇文章多次提到。之前只是了解了个大概。翻了翻原版论文和一些相关资料进行了整理。1. 直观理解：混合密度网络通常作为神经网络的最后处理部分。将某种分布（通常是高斯分布）按照一定的权重进行叠加，从而拟合最终的分布。如果选择高斯分布的MDN，那么它和GMM（高斯混合模型 Gaussian Mixtu
复制链接

扫一扫