1,sigmoid函数
f`(g(x))=f`(g)*g`(x)
若其中g`(x)小于1大于0,则每经过一层都会导致权重乘以一个小数,因此层数变多后会导致权重消失。
2,relu
relu`(x)=x若x大于0,x小于0则等于0
假设输入均值是1,简化问题认为输入都是1或有一半是1,其余是0.而w都是小数,则其输出结果依据w方差和输入的数目成比例增加或减少。
因此假如核太多并且没有归一化可能会导致输出结果随层数快速增加。可以考虑采用归一化手段, 如cnn中的local normalization。
relu假如让w均值为0,会导致输出百分之50概率是0,因此会导致本层一半的输出是0。
求导的话就是一路乘其路径上的权重。权重有可能是正或负,但权重是小数也会每层缩小梯度,最后乘以本次输入的x值。因此每隔多少层造一个输出,然后制造一个误差传过去进行训练。