如果要求w1的梯度的话,那么就是
假如激活函数用的sigmod话,那么如下:
所以
所以导致梯度消失问题
那么为什么换了relu激活函数也会有梯度消失问题呢?因为乘积中还有另外一部分
这个wj如果有很多w是0到1之间的数,那么最终还是会导致梯度消失,如果有很多都是大于1的数,那么就会导致梯度爆炸
如果要求w1的梯度的话,那么就是
假如激活函数用的sigmod话,那么如下:
所以
所以导致梯度消失问题
那么为什么换了relu激活函数也会有梯度消失问题呢?因为乘积中还有另外一部分
这个wj如果有很多w是0到1之间的数,那么最终还是会导致梯度消失,如果有很多都是大于1的数,那么就会导致梯度爆炸