不同层可以由不同的激活函数。
隐藏层用tanh函数,而不用sigmoid函数,因为tanh的输出介于-1,1之间,激活函数输出的平均值更接近于0,而不是sigmoid的的0.5,让下一层的学习更方便一些。
只在输出层是二分类的时候用sigmoid函数,因为y输出0、1,正符合sigmoid函数的值域。
tanh和sigmoid的缺点都是,当z非常大或者非常小的时候,函数的斜率趋近于0,会拖慢梯度下降法的速度。所以用ReLU=>a = max(0, z)
不同层可以由不同的激活函数。
隐藏层用tanh函数,而不用sigmoid函数,因为tanh的输出介于-1,1之间,激活函数输出的平均值更接近于0,而不是sigmoid的的0.5,让下一层的学习更方便一些。
只在输出层是二分类的时候用sigmoid函数,因为y输出0、1,正符合sigmoid函数的值域。
tanh和sigmoid的缺点都是,当z非常大或者非常小的时候,函数的斜率趋近于0,会拖慢梯度下降法的速度。所以用ReLU=>a = max(0, z)