梯度下降
概述:
y^=σ(wTx+b),σ(z)=11+e−z
y
^
=
σ
(
w
T
x
+
b
)
,
σ
(
z
)
=
1
1
+
e
−
z
J(w,b)=1m∑mi=1L(y^(i),y(i))=−1m∑mi=1y(i)logy^(i)+(1−y(i))log(1−y^(i))
J
(
w
,
b
)
=
1
m
∑
i
=
1
m
L
(
y
^
(
i
)
,
y
(
i
)
)
=
−
1
m
∑
i
=
1
m
y
(
i
)
l
o
g
y
^
(
i
)
+
(
1
−
y
(
i
)
)
l
o
g
(
1
−
y
^
(
i
)
)
想要找到w,b最小的值
以下为个人阐述观点:
学过导数的我们知道,一个函数对某一点进行求导,首先是求出该点的斜率,该点的导数值即为斜率。
如上所示的简单的一维图像是一个凹函数,使w点最低,就要使得w逐步缩小。如下公式:
w:=w−αdJ(w)dw
w
:=
w
−
α
d
J
(
w
)
d
w
其中
α
α
是学习率,一般非常小,在0.001-0.1之间。:=表示循环赋值
dJ(w)dw
d
J
(
w
)
d
w
为对w进行求导,即可以转化为
w:=w−αdw
w
:=
w
−
α
d
w
,可使得w自行找到最低点。当w处于左边时,斜率为负数,
αdw
α
d
w
为负数,
−αdw
−
α
d
w
为正数,
w−αdw
w
−
α
d
w
将会逐步增加,达到最低点。
同样在高纬度中,有两个函数或多个函数,则对其进行求偏导。如下公式所示:
w:=w−α∂J(w,b)∂w
w
:=
w
−
α
∂
J
(
w
,
b
)
∂
w
b:=b−α∂J(w,b)∂b
b
:=
b
−
α
∂
J
(
w
,
b
)
∂
b
吴恩达之神经网络和深度学习-2.4梯度下降法
最新推荐文章于 2019-12-01 19:18:09 发布