以6464的3通道图片为例,它的特征一共有364*64=12288个.
在神经网络中我们把每一个样本作为一列(通常情况下我们是作为一行),这样处理有助于以后的理解.
而对应的标签y则是一样的布局.
接下来的两张图片是介绍深度学习里的符号约定.
字母的上标 ( i ) (i) (i)代表了 i t h i^{th} ith第i个样本,同样的道理 [ l ] [l] [l]将代表 l t h l^{th} lth第 l l l个层
m
m
m 数据集中样本的数量
n
x
n_x
nx 输入的特征尺寸
n
y
n_y
ny 输出的标签尺寸
n
h
[
y
]
n_h^{[y]}
nh[y] 在
l
l
l层,隐藏单元的数量
L
L
L 神经网络中的层数
X
∈
R
n
x
∗
m
X \in R^{n_x*m}
X∈Rnx∗m 输入的矩阵
x
(
i
)
∈
R
n
x
x^{(i)} \in R^{n_x}
x(i)∈Rnx 代表了第
i
i
i个样本(或者第
i
i
i列)
Y
∈
R
n
y
∗
m
Y \in R^{n_y*m}
Y∈Rny∗m 输出的矩阵
y
(
i
)
∈
R
n
y
y^{(i)} \in R^{n_y}
y(i)∈Rny 第
i
i
i个输出标签(或者第
i
i
i列)
W
[
l
]
∈
R
后
一
层
的
神
经
元
∗
前
一
层
的
神
经
元
W^{[l]} \in R^{后一层的神经元*前一层的神经元}
W[l]∈R后一层的神经元∗前一层的神经元 第
l
l
l层的系数矩阵
b
[
l
]
∈
R
下
一
层
神
经
元
的
数
量
b^{[l]} \in R^{下一层神经元的数量}
b[l]∈R下一层神经元的数量 第
l
l
l层的偏置(bias)矩阵
y
^
∈
R
n
y
\hat{y} \in R^{n_y}
y^∈Rny 预测的输出向量,它也可以是
a
[
l
]
a^{[l]}
a[l],
l
l
l是神经网络中的层.
a = g [ l ] ( W x x ( i ) + b 1 ) = g [ l ] ( z 1 ) a = g{[l]}(W_xx^{(i)}+b_1)=g{[l]}(z_1) a=g[l](Wxx(i)+b1)=g[l](z1) 代表了第 l l l层的激活函数
y
^
(
i
)
=
s
o
f
t
m
a
x
(
W
h
h
+
b
2
)
\hat{y}^{(i)} = softmax(W_hh+b_2)
y^(i)=softmax(Whh+b2)
a
j
[
l
]
=
g
[
l
]
(
∑
k
w
j
k
[
l
]
a
k
[
l
−
1
]
+
b
j
[
l
]
)
=
g
[
l
]
(
z
j
[
l
]
)
a_j^{[l]}=g^{[l]}(\sum_kw^{[l]}_{jk}a_k^{[l-1]}+b_j^{[l]})=g^{[l]}(z_j^{[l]})
aj[l]=g[l](∑kwjk[l]ak[l−1]+bj[l])=g[l](zj[l])
J
(
x
,
W
,
b
,
y
)
J(x,W,b,y)
J(x,W,b,y) or
J
(
y
^
,
y
)
J(\hat{y},y)
J(y^,y) 是损失函数