6.3 hidden units
RELU是hidden单元很好的默认选择,rectified linear函数在0点不是可微分的,这貌似会使rectified linear函数不能使用基于梯度的训练算法,而实践中,梯度下降仍然表现很好。
因为我们不期望训练达到一个梯度为0的点,cost函数的最小值在一个未定义的梯度是可以接受的,隐藏单元不能微分的情况一般是只在几个少数的点,在一个点是可微分的只有这点的左右导数相等。
大多数隐藏单元接受一个向量输入x,进行转换z=Wx+b,然后应用非线性激活函数g(z)
6.3.1 Rectified Linear Units and Their Generalizations
初始化参数的时候,最好把b的所有元素都设置比较小,正值,比如0.1