FRN实验记录

最新推荐文章于 2022-01-10 12:53:00 发布

许多天的rua

最新推荐文章于 2022-01-10 12:53:00 发布

阅读量877

点赞数

分类专栏：量化

本文链接：https://blog.csdn.net/qq_18053809/article/details/103478732

版权

本文记录了FRN（Feature Response Normalization）的优化实验，包括σ修正、max函数导数修正，以及在BN、LN、GN上的测试。实验表明，σ修正中引入学习变量和特定lr策略能改善性能，但max函数导数修正效果不一。在无warm up和cosine decay时，FRN无法收敛。此外，提出的问题包括新方法的稳定性、优势及其优化潜力。

摘要由CSDN通过智能技术生成

在batchsize128的情况下，变化ramp-up，看最佳的ramp-upepoch是多少。

ramp-up	20	50	80
FRN	91.74%	92.30%	92.28%

感觉最优的rampup应在50~80个epoch之间，暂用50.

0：后续实验计划

cifar100上FRN效果太差，复现的结果有问题。需要更正。
测试3 的方法究竟有什么好处？更快的收敛究竟意味着什么？
接下来的实验要从三方面入手：
1：该方法是否稳定？
2：该方法究竟有什么好处？
3：该方法能够进一步优化？
针对第一点，比较好的方法就是多个数据集检验。鉴于目前算力，只在svhn和cifar100上跑一下就可以，应该足够说明问题。
针对第二点，因为FRN复现有问题（cifar100上结果不对，同时也找不到更好的调参方式），同时，如果该方法对BN，LN，WN等方式都有好处，将会有更大的意义。所以先不再以FRN为基础，而是转向BN，LN，WN。从BN开始。目前FRN面临的问题就是训练困难。需要采用warmup和cosine形式的lr下降方式才能work。这种新的训练方式能否降低对这些技巧的依赖，使得该方法更加普适？
针对第三点，这种训练方式也许说明了方差不那么重要。能否用其他的东西来代替方差？另外，这种方法对BN有没有效果？

1： $\sigma$ 修正

1.1 Max_Min_FRN

在ramp-up 50的情况下，变化batchsize，看各种算法的accuracy。

Image per GPU	128	32
BN	93.01%	92.01%
FRN	92.30%	92.31%
Max_Min_FRN	91.25%	91.25%
No_sigma_FRN_V1	91.51%	91.50%
No_sigma_FRN_V2	91.71%	91.71%

三种layer的公式如下：

$\hat{x}=\gamma\frac{x-\mu_{bn}}{\sigma_{bn}}+\beta,\sigma_{bn}=\sqrt{\frac{\sum (x_i-\mu)^2}{H*W*B}}$
$FRN:\hat{x}=max(\gamma\frac{x}{\sigma_{frn}}+\beta,\tau),\sigma_{frn}=\sqrt{\frac{\sum x_i^2}{H*W}}$
$Max\_Min\_FRN:\hat{x}=max(\gamma\frac{x}{\sigma_{range}}+\beta,\tau),\sigma_{range}=\frac{x_{max}-x_{min}}{\sqrt{2*ln(H*W)}},x_{max},x_{min}是在HW两个维度统计的$
$No\_\sigma\_FRN\_V1:\hat{x}=max(\gamma x +\beta,\tau)$
$No\_\sigma\_FRN\_V2:\hat{x}=max( x,\tau)$
从上面表格可以看出，
FRN在两种batchsize中表现一致。这不仅依赖于FRNlayer的设计( $\sigma_{frn}$ 与batch无关，且无需计算mean)，也与FRN的lr设置相关。lr的初始值是 $0.1*batch\_size/256$ ，是一个与batchsize相关的量，如果没有这个设计，小batchsize也会使得FRN性能变差。
FRN在Images per GPU 128的情况下，是差于BN的。但是paper里面最大的Images per GPU是32，而在Images per GPU 32的情况下，FRN性能优于BN。所以这个结果是与paper里面结果一致的。
Max_Min_FRN效果较FRN差距比较大。但是在小batchsize下，与BN基本持平。与FRN差距较大的原因，初步分析，是由于 $\sigma_{range}=\frac{x_{max}-x_{min}}{\sqrt{2*ln(H*W)}}\approx\sigma_{bn}=\sqrt{\frac{\sum (x_i-\mu)^2}{H*W*B}}<<\sigma_{frn}=\sqrt{\frac{\sum x_i^2}{H*W}}$
非常有意思的点是，当我们把方差 $\sigma$ 置为1时，效果仍然不错。而且与 $\gamma,\beta$ 关系不大。同时，我们发现这种训练在前期收敛速度特别快，远远超过正常的FRN。这是一个很好的性质。只是在后期，他的精度无法达到FRN的级别。

1.2：对 $\sigma_{frn}$ 的一种估计

有高斯分布性质，大体可以认为， $\sigma_{frn}\approx\sqrt{\mu^2+\sigma^2}$ ,这里的 $\mu,\sigma$ 指在H，W两个维度上算出的均值方差。
若方差用 $\sigma_{range}$ 代替，均值用 $x_{max} + x_{min})/2$ 代替，可以降低运算量。

$Max\_Min\_FRN\_V2:\hat{x}=max(\gamma\frac{x}{\sigma_{range\_v2}}+\beta,\tau),\sigma_{range\_v2}=\sqrt{\frac{(x_{max}-x_{min})^2}{2*ln(H*W)}+\frac{(x_{max}+x_{min})^2}{4}}$

Image per GPU	128	32(batchsize:64,GPU:2)
BN	93.01%	92.01%
FRN	92.30%	92.31%
Max_Min_FRN	91.25%	91.25%
Max_Min_FRN _V2	91.80%	91.81%

1.3：用可学习变量代替方差

$Learnable\_V1:y=max(\gamma *min(x,\alpha)+\beta,\tau)$

Image per GPU	128	32(batchsize:64,GPU:2)
BN	93.01%	92.40%
FRN	92.30%	92.31%
Max_Min_FRN	91.25%	91.25%
Max_Min_FRN _V2	91.80%	91.81%
Learnable_V1	90.55%

$Learnable\_V2:y=max(\gamma *min(x,\alpha)+\beta,\tau)/(\alpha - \beta)$

Image per GPU	128	32(batchsize:64,GPU:2)
BN	93.01%	92.01%
FRN	92.30%	92.31%
Max_Min_FRN	91.25%	91.25%
Max_Min_FRN _V2	91.80%	91.81%
Learnable_V1	90.55%
Learnable_V2	不收敛，效果很差

$Learnable\_V3:y=2*max(\gamma *min(x,\alpha)+\beta,\tau)/(\alpha + \beta)$

Image per GPU	128	32(batchsize:64,GPU:2)
BN	93.01%	92.01%
FRN	92.30%	92.31%
Max_Min_FRN	91.25%	91.25%
Max_Min_FRN _V2	91.80%	91.81%
Learnable_V1	90.55%
Learnable_V2	不收敛，效果很差
Learnable_V3	不收敛，效果很差

$Learnable\_V4:y=max(\gamma *min(x,\alpha)+\beta,\tau)/detach(\alpha - \beta)$

Image per GPU	128	32(batchsize:64,GPU:2)
BN	93.01%	92.01%
FRN	92.30%	92.31%
Max_Min_FRN	91.25%	91.25%
Max_Min_FRN _V2	91.80%	91.81%
Learnable_V1	90.55%
Learnable_V2	不收敛，效果很差
Learnable_V3	不收敛，效果很差
Learnable_V4	不收敛，效果很差

最低0.47元/天解锁文章

许多天的rua

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
FRN实验记录

先检查模块的正确性，再做实验FRN单元测试比较了paper中tensorflow版本的输出和自己实现的pytorch版本的输出。import tensorflow as tftf.__version__def FRNLayer(x, tau, beta, gamma, eps=1e-6): nu2 = tf.reduce_mean(tf.square(x), axis=[1,2...
复制链接

扫一扫