激活函数:
图示:
梯度求解:
f
(
x
)
=
1
1
+
e
−
x
f(x) = {1 \above{0.5px} 1 + {e^{-x}}}
f(x)=1+e−x1
f
′
(
x
)
=
e
−
x
(
1
+
e
−
x
)
2
f'(x) = {e^{-x} \above{0.5px} ({1 + e^{-x}})^2}
f′(x)=(1+e−x)2e−x
f
′
(
x
)
=
(
1
+
e
−
x
)
−
1
(
1
+
e
−
x
)
2
f'(x) = {(1 + e^{-x}) - 1 \above{0.5px}({1 + e^{-x}})^2}
f′(x)=(1+e−x)2(1+e−x)−1
f
′
(
x
)
=
1
1
+
e
−
x
−
1
(
1
+
e
−
x
)
2
f'(x) = {\frac 1 {1 + e^{-x}} - \frac 1 {{(1 + e^{-x}})^2}}
f′(x)=1+e−x1−(1+e−x)21
σ
′
(
x
)
=
σ
(
x
)
(
1
−
σ
(
x
)
)
\sigma'(x) = \sigma(x)(1 - \sigma(x))
σ′(x)=σ(x)(1−σ(x))
损失函数使用:MSE
E
=
1
2
(
O
0
1
−
t
)
2
(
t
是
标
签
值
,
O
0
1
是
经
过
s
i
g
m
o
i
d
激
活
函
数
后
的
输
出
值
,
1
/
2
是
为
了
求
导
时
消
掉
常
数
项
w
j
0
表
示
第
j
个
权
值
)
E = {\frac 1 2} (O_0^1 - t)^2 \\ (t是标签值,O_0^1是经过sigmoid激活函数后的输出值, 1/2是为了求导时消掉常数项w_{j_0}表示第j个权值)
E=21(O01−t)2(t是标签值,O01是经过sigmoid激活函数后的输出值,1/2是为了求导时消掉常数项wj0表示第j个权值)
φ
E
φ
w
j
0
=
(
O
0
1
−
t
)
φ
O
φ
w
j
0
(
这
里
为
了
便
于
书
写
,
用
O
来
代
替
O
0
1
)
\frac {\varphi_E} {\varphi_{w_{j_0}}} = (O_0^1 - t){\frac {\varphi_O} {\varphi_{w_{j_0}}}} \\ (这里为了便于书写,用O来代替O_0^1)
φwj0φE=(O01−t)φwj0φO(这里为了便于书写,用O来代替O01)
O
=
σ
(
x
)
φ
E
φ
w
j
0
=
(
O
−
t
)
φ
σ
(
x
0
1
)
φ
(
w
j
0
)
O = \sigma(x) \\ \frac {\varphi_E} {\varphi_{w_{j_0}}} = (O - t){\frac {\varphi_{\sigma(x_0^1)}} {\varphi_{(w_{j_0})}}} \\
O=σ(x)φwj0φE=(O−t)φ(wj0)φσ(x01)
φ
E
φ
w
j
0
=
(
O
−
t
)
φ
σ
(
x
0
1
)
φ
(
x
0
1
)
φ
(
x
0
1
)
φ
σ
(
w
j
0
)
\frac {\varphi_E} {\varphi_{w_{j_0}}} = (O - t){\frac {\varphi_{\sigma(x_0^1)}} {\varphi_{(x_0^1)}}} {\frac {\varphi_{(x_0^1)}} {\varphi_{\sigma(w_{j_0})}}}
φwj0φE=(O−t)φ(x01)φσ(x01)φσ(wj0)φ(x01)
φ
E
φ
w
j
0
=
(
O
−
t
)
σ
(
x
0
1
)
)
(
1
−
σ
(
x
0
1
)
)
)
φ
(
x
0
1
)
φ
σ
(
w
j
0
)
\frac {\varphi_E} {\varphi_{w_{j_0}}} = (O - t) \sigma(x_0^1))(1 - \sigma(x_0^1))){\frac {\varphi_{(x_0^1)}} {\varphi_{\sigma(w_{j_0})}}}
φwj0φE=(O−t)σ(x01))(1−σ(x01)))φσ(wj0)φ(x01)
(
根
据
线
性
关
系
)
x
0
1
=
Σ
w
j
0
x
j
0
φ
E
φ
w
j
0
=
(
O
−
t
)
σ
(
x
0
1
)
)
(
1
−
σ
(
x
0
1
)
)
)
x
j
0
(
所
有
变
量
都
为
已
知
,
求
出
梯
度
)
(根据线性关系 )\\ x_0^1 = \Sigma w_{j_0}x_j^0 \\ \frac {\varphi_E} {\varphi_{w_{j_0}}} = (O - t) \sigma(x_0^1))(1 - \sigma(x_0^1))) {x_j^0} \\ (所有变量都为已知,求出梯度)
(根据线性关系)x01=Σwj0xj0φwj0φE=(O−t)σ(x01))(1−σ(x01)))xj0(所有变量都为已知,求出梯度)