一、均方误差
二、交叉熵
L
=
∑
i
=
1
N
y
l
o
g
y
^
+
(
1
−
y
)
l
o
g
(
1
−
y
^
)
L = \sum^{N}_{i=1}ylog\hat{y}+(1-y)log(1-\hat{y})
L=i=1∑Nylogy^+(1−y)log(1−y^)
神经网络
简单的交叉熵损失函数,你真的懂了吗?
三、对数似然误差
LR
四、损失函数和激活函数的组合
1.均方差损失函数+Sigmoid激活函数(不推荐)
对于Sigmoid,当z的取值越来越大后,函数曲线变得越来越平缓,意味着此时的导数σ′(z)也越来越小。同样的,当z的取值越来越小时,也有这个问题。仅仅在z取值为0附近时,导数σ′(z)的取值较大。
在反向传播算法中,每一层向前递推都要乘以σ′(z),得到梯度变化值。Sigmoid的这个曲线意味着在大多数时候,我们的梯度变化值很小,导致我们的W,b更新到极值的速度较慢,也就是我们的算法收敛速度较慢。
2. 使用交叉熵损失函数+Sigmoid激活函数(提高收敛速度)