之前我们已经了解了Logistic Regression。Lost Function可以衡量您在单个训练示例中的表现,Cost Function可以衡量参数 w w 和在整个训练集上的表现。
接下来我们会提到如何使用梯度下降算法来训练参数 w w 和。
成本函数
J=1m∑mi=1L(y^(i),yi)
J
=
1
m
∑
i
=
1
m
L
(
y
^
(
i
)
,
y
i
)
=−1m∑mi=1(yilogy^i+(1−yi)log(1−y^i))
=
−
1
m
∑
i
=
1
m
(
y
i
log
y
^
i
+
(
1
−
y
i
)
log
(
1
−
y
^
i
)
)
,
我们希望得到
w
w
和使得成本函数
J
J
尽量小。
所以这里是梯度下降的例证。
该成本函数是凸函数。所以它看起来像一个碗。这是我们使用这个特定成本函数
J
J
进行逻辑回归的一个重要原因。
我们现在要将和 b b 初始化为某个初始值。对于对数几率回归,几乎所有初始化方法都有效,通常将值初始化为零。随机初始也有效,但人们通常不会这样进行对数几率回归。但是因为这个函数是凸的,无论你在哪里初始化,你都能够达到相同的点或大致相同的点。
所以梯度下降就是这样,我们将重复进行以下更新
其中
α
α
是学习率。