第一门课
感谢黄博的参考笔记https://github.com/fengdu78/deeplearning_ai_books
第二周
逻辑回归
m样本梯度下降
一次梯度下降
逻辑回归
正向传播与反向传播
一次反向传播梯度下降
第三周
神经网络
注意与机器学习课程不同的一点是,第一层不算样本输入
激活函数
tanh
a
=
t
a
n
(
z
)
a = tan(z)
a=tan(z)的值域是位于+1和-1之间。
a
=
t
a
n
h
(
z
)
=
e
z
−
e
−
z
e
z
+
e
−
z
a= tanh(z) = \frac{e^{z} - e^{- z}}{e^{z} + e^{- z}}
a=tanh(z)=ez+e−zez−e−z
事实上,tanh函数是sigmoid的向下平移和伸缩后的结果。对它进行了变形后,穿过了 ( 0 , 0 ) (0,0) (0,0)点,并且值域介于+1和-1之间。
结果表明,如果在隐藏层上使用函数
g
(
z
[
1
]
)
=
t
a
n
h
(
z
[
1
]
)
g(z^{[1]}) = tanh(z^{[1]})
g(z[1])=tanh(z[1])
效果总是优于sigmoid函数。因为函数值域在-1和+1的激活函数,其均值是更接近零均值的。在训练一个算法模型时,如果使用tanh函数代替sigmoid函数中心化数据,使得数据的平均值更接近0而不是0.5.
sigmoid函数和tanh函数两者共同的缺点是,在 z z z特别大或者特别小的情况下,导数的梯度或者函数的斜率会变得特别小,最后就会接近于0,导致降低梯度下降的速度。
ReLU
这有一些选择激活函数的经验法则:
如果输出是0、1值(二分类问题),则输出层选择sigmoid函数,然后其它的所有单元都选择Relu函数。