HyperNetwork 论文阅读 2017 ICLR

roar_min

已于 2022-03-22 16:31:54 修改

阅读量1.7k

点赞数

文章标签：卷积神经网络 python

于 2022-03-21 17:23:54 首次发布

本文链接：https://blog.csdn.net/possibility_mine/article/details/109757472

版权

HyperNetwork

论文地址
1、灵感来源于nature中的基因型（超网络）以及表型（主网络）
2、主要为了解决CNN，RNN中权重不共享以及RNN中全共享的问题，旨在创造一个relaxed weight-sharing across layers的模型，在不特别影响精度的情况下，减少了模型参数。

模型

一、静态 HyperNetwork：深度卷积网络的权重分解方法

超网络为前馈网络生成权重。黑色连接和参数与主网络相关联，而橙色连接和参数与超级网络相关联。

分解原理：
卷积的所有参数： $K^j\in R^{N_{in}f_{size} \times N_{out} f_{size}}$ ，（其中 $j = 1, . . . D$ 为深度卷积网络的层数），作者想让这个参数用线性映射一下，由此可以表示为：

将其沿着参数 $N_{in}$ 方向分解为slices，输出的结果可以等价于输入两个线性层之后的叠加，由此函数 $g(\dot )$ 可以拆分为如下公式（其中的<.>表示dot product点积）：

为什么要用两层：一是比一层的参数要少，二是对于共享参数 $W_{out}、B_{out}$ ，两层的hperNetwork表示能使结构更为紧凑。
由此就可以用在一些深度卷积网络中，例如Resnet网络，结果如下：

代码：
HyperNetwork，定义了可学习参数

生成embedding

总体结构：

其实大概就是把Residual network中的卷积的权重换成了hpernetwork网络产生的结果（W），这个超网络需要embedding即Z作为激励
github代码