二分类问题
从特征 features 到目标 target 的预测,由于每个特征对结果的影响程度不同,所以给每个特征 feature 配备一个权重系数 weight,为了修正整体偏差,可以给最终结果配备一个偏差系数 bias,于是有 w x + b wx + b wx+b。对于分类问题,我们将上述结果再经过一个 sigmoid 函数,于是有 σ ( w x + b ) \sigma(wx + b) σ(wx+b),这便是我们对于分类问题的预测结果,表示 target 为某个分类的概率,这里出现了概率一词,于是我们可以考虑使用概率论的一些工具和方法。假设 y ^ = σ ( w x + b ) \hat{y} = \sigma(wx + b) y^=σ(wx+b)表示预测为正的概率,那么预测为反的概率为 1 − y ^ 1-\hat{y} 1−y^,如下表所示:
事件 | 概率 |
---|---|
正 | y ^ \hat{y} y^ |
反 | 1 − y ^ 1-\hat{y} 1−y^ |
假设实际结果为:正、正、反、正、反、反、正,因为是独立事件,所以他们同时发生的概率为:
P
=
y
^
∗
y
^
∗
(
1
−
y
^
)
∗
y
^
∗
(
1
−
y
^
)
∗
(
1
−
y
^
)
∗
y
^
P = \hat{y}*\hat{y}*(1-\hat{y})*\hat{y}*(1-\hat{y})*(1-\hat{y})*\hat{y}
P=y^∗y^∗(1−y^)∗y^∗(1−y^)∗(1−y^)∗y^
根据最大似然估计的目标1,我们需要最大化
P
P
P。由于乘法优化起来比较麻烦,所以我们可以转化为等效的加法运算,我们取对数后得到:
ln
(
P
)
=
ln
(
y
^
)
+
ln
(
y
^
)
+
ln
(
1
−
y
^
)
+
ln
(
y
^
)
+
ln
(
1
−
y
^
)
+
ln
(
1
−
y
^
)
+
ln
(
y
^
)
\ln(P) = \ln(\hat{y}) + \ln(\hat{y}) + \ln(1-\hat{y}) + \ln(\hat{y}) + \ln(1-\hat{y}) + \ln(1-\hat{y}) + \ln(\hat{y})
ln(P)=ln(y^)+ln(y^)+ln(1−y^)+ln(y^)+ln(1−y^)+ln(1−y^)+ln(y^)
由于
0
<
y
^
<
1
0<\hat{y} < 1
0<y^<1,所以
−
∞
<
ln
(
y
^
)
<
0
-\infty<\ln(\hat{y}) < 0
−∞<ln(y^)<0,不利于计算求和,于是我们取
ln
(
y
^
)
\ln(\hat{y})
ln(y^) 的相反数:
L
o
s
s
=
−
ln
(
P
)
=
−
ln
(
y
^
)
−
ln
(
y
^
)
−
ln
(
1
−
y
^
)
−
ln
(
y
^
)
−
ln
(
1
−
y
^
)
−
ln
(
1
−
y
^
)
−
ln
(
y
^
)
Loss = -\ln(P) = -\ln(\hat{y}) - \ln(\hat{y}) - \ln(1-\hat{y}) - \ln(\hat{y}) - \ln(1-\hat{y}) - \ln(1-\hat{y}) - \ln(\hat{y})
Loss=−ln(P)=−ln(y^)−ln(y^)−ln(1−y^)−ln(y^)−ln(1−y^)−ln(1−y^)−ln(y^)
现在的目标变成最小化
L
o
s
s
Loss
Loss