STE作为一种方法已经被提出很久了,也出现了很多它的变体。但它在本质上,是用了一个与当前函数无关的梯度来代替原有的梯度,为什么这个朝着这个替代品的梯度下降的方向优化网络有用?面对已经提出的许多STE的变体,我们应该如何选取?本文的主要内容就是解决以上两个问题。
首先,作者定义了一个简单的网络:

其中Z是一个取样自(0,1)高斯分布的输入数据,w和v是权重,σ是二元的的激活函数:

标签的定义如下:

损失函数的定义如下:

由于
,作者这里使||w*||等于1.于是优化目标变为:

直通估计器(STE)在激活量化神经网络的训练中起到关键作用,解决了传统反向传播中激活函数导数近似为零导致的训练难题。文章介绍了STE的基本原理,通过定义简单的网络结构和损失函数,展示了STE如何通过可求导的μ函数导数替代激活函数的导数,使得网络可以进行训练。作者还探讨了不同STE变体的收敛性和性能,并通过实验验证了STE在不同输入分布和激活函数类型(如vanilla ReLU和clipped ReLU)下的效果,证明了其优化网络的有效性。
最低0.47元/天 解锁文章

2254

被折叠的 条评论
为什么被折叠?



