软权值共享

最新推荐文章于 2023-12-21 11:17:31 发布

NeverMore_7

最新推荐文章于 2023-12-21 11:17:31 发布

阅读量2.1k

点赞数 1

分类专栏：深度学习自然语言处理机器学习与大数据图形图像概率和统计文章标签：神经网络正则权值共享混合高斯模型

本文链接：https://blog.csdn.net/unixtch/article/details/77897716

版权

机器学习与大数据同时被 3 个专栏收录

21 篇文章 1 订阅

订阅专栏

深度学习

19 篇文章 2 订阅

订阅专栏

概率和统计

11 篇文章 1 订阅

订阅专栏

前言

权值共享是一种减小深度网络中参数数量的方法，常见于卷积神经网络（CNN）。在CNN中每一个特征图是一组相同的参数对图像进行卷积中，每一组参数对应着图像每个局部的特征。这样的的权值共享叫做硬权值共享。而某些场景下，我们并不能这样使用同一组参数作，而使用相似的参数，这叫做软权值共享。软权值共享以一种正则化的形式给出。

软权值共享

我们常见的正则化形式是 $\lambda ww^T$ ，如果将权值看作是符合高斯分布，那么正则化可以看作是权值负对数（最大似然估计）。我们现在将权值分为若干组，而不是将所有权值分为一组。分组的方法是使用混合高斯分布，每个高斯分布的均值、方差、以及混合权重都是待定且可以学习的。对于模型权值 $w$ 的概率密度为：

p (w) = \prod i w i

$p(w)=\prod_{i}w_i$ 其中

p (w i) = \sum j = 1 M π j N (w i | u j, σ 2 j)

$p(w_i)=\sum_{j=1}^M\pi_j N(w_i|u_j,\sigma_{j}^2)$

πj $\pi_j$ 是高斯混合系数，取负对数，则可得到正则化函数

Ω (w) = - \sum i = 1 l n (\sum j = 1 M π j N (w i | u j, σ 2 j))

$\Omega(w)=-\sum_{i=1}ln(\sum_{j=1}^M\pi_jN(w_i|u_j,\sigma_{j}^2))$ 从而最终的损失函数可以写作：

E^(w) = E (w) + λ Ω (w)

$\hat E(w)=E(w)+\lambda \Omega(w)$ 可以看到，这个损失函数是包括权值

w $w$ 、均值

u $u$ 、方差

σ $\sigma$ 、混合系数

π $\pi$ 的最优化。如果

w $w$ 是常数，那么就只有混合模型参数

{u,σ,π} $\{u,\sigma,\pi\}$ ，利用EM算法便可以学习到。但此时

w $w$ 也是在不断变化中，那么则需要考虑标准的优化算法（如梯度下降等）来解决。

为了更方便的讨论，我们将

π $\pi$ 看作概率分布，写作：

γ j (w) = π j N ( w | u j , σ 2 j ) \sum k π k N ( w | u k , σ 2 k )

$\gamma_j(w)={{\pi_jN(w|u_j,\sigma_{j}^2)} \over {\sum_{k}\pi_kN(w|u_k,\sigma_{k}^2)}}$ 则最终损失函数关于

wi $w_i$ 和均值

uj $u_j$ 的导数为：

\partial E ^ ( w ) \partial w i = \partial E ( w ) \partial w i + λ \sum j γ j (w i) w i - u i σ 2 j

${{\partial \hat E(w)} \over {\partial w_i}}={{\partial E(w)} \over {\partial w_i}}+\lambda \sum_j \gamma_j(w_i){{w_i-u_i} \over {\sigma_{j}^2}}$

\partial E ^ ( w ) \partial u i = λ \sum i γ j (w i) u j - w i σ 2 j

${{\partial \hat E(w)} \over {\partial u_i}}=\lambda \sum_i \gamma_j(w_i){{u_j-w_i} \over \sigma_{j}^2}$ 可以看到，对于

wi $w_i$ ，是将它拉向第

j $j$ 个分布的中心，拉力正比与给定权值的后验概率。而对于第

j $j$ 高斯分布的均值，则拉向于权值的均值，两者相辅相成。同样可以知道对于方差有

\partial E ^ ( w ) \partial σ i = λ \sum i γ j (w i) (1 σ j - w i - u j 2 σ 3 j)

${{\partial \hat E(w)} \over {\partial \sigma_i}}=\lambda \sum_i \gamma_j(w_i)({1 \over \sigma_j}-{{w_i-u_j}^2 \over \sigma_{j}^3})$ 它将

σj $σ_j$ 拉向权值在对应的中⼼

µj $µ_j$ 附近的偏差的平⽅的加权平均。对于混合系数

πi $\pi_i$ ，考虑到

∑iπi=1,0<πi<1 $\sum_{i} \pi_i=1,0<\pi_i<1$ ，将

πi $\pi_i$ 写作softmax的形式：

π i = e x p ( η i ) \sum M k = 1 e x p ( η k )

$\pi_i={{exp(\eta_i)} \over {\sum_{k=1}^Mexp(\eta_k)}}$ 求导后有：

\partial E ^ ( w ) \partial η j = \sum i (π j - γ j (w i))

${{\partial \hat E(w)} \over {\partial \eta_j}}=\sum_{i}(\pi_j-\gamma_j(w_i))$ 我们看到，

πj $π_j$ 被拉向第

j <script type="math/tex" id="MathJax-Element-15826">j</script>个⾼斯分量的平均后验概率。

总结

软权值共享是利用高斯混合模型来对模型实施正则化，从而对损失函数进行最优化，得出权值和混合模型的参数，正则化借助简单的高斯分布变成了混合高斯，区别就此而已，在理论推导过程中使用了一些技巧。

NeverMore_7

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
软权值共享

前言权值共享是一种减小深度网络中参数数量的方法，常见于卷积神经网络（CNN）。在CNN中每一个特征图是一组相同的参数对图像进行卷积中，每一组参数对应着图像每个局部的特征。这样的的权值共享叫做硬权值共享。而某些场景下，我们并不能这样使用同一组参数作，而使用相似的参数，这叫做软权值共享。软权值共享以一种正则化的形式给出。软权值共享我们常见的正则化形式是λwwT\lambda ww^T，如果将权值看作是符
复制链接

扫一扫