w
t
=
w
t
−
1
−
η
∂
l
∂
w
t
−
1
w_t = w_{t-1} - \eta \frac {\partial l} {\partial{w_{t-1}}}
wt=wt−1−η∂wt−1∂l 此时刻的参数值是上一个时刻的参数值沿着损失函数对参数导数的相反方向运动一次学习率(步长
η
\eta
η)*梯度的距离,等高线图十分形象且好理解。
有以下分解
o
1
=
x
1
w
1
1
+
x
2
w
1
2
+
x
3
w
1
3
+
x
4
w
1
4
+
b
1
o_1 = x_1w_11 + x_2w_12 + x_3w_13 + x_4w_14 + b_1
o1=x1w11+x2w12+x3w13+x4w14+b1
o
2
=
x
1
w
2
1
+
x
2
w
2
2
+
x
3
w
2
3
+
x
4
w
2
4
+
b
2
o_2 = x_1w_21 + x_2w_22 + x_3w_23 + x_4w_24 + b_2
o2=x1w21+x2w22+x3w23+x4w24+b2
o
3
=
x
1
w
3
1
+
x
2
w
3
2
+
x
3
w
3
3
+
x
4
w
3
4
+
b
3
o_3 = x_1w_31 + x_2w_32 + x_3w_33 + x_4w_34 + b_3
o3=x1w31+x2w32+x3w33+x4w34+b3
简单表示成下面
o
=
W
x
+
b
o = Wx + b
o=Wx+b 其中
W
W
W是3行4列的向量 对于给定的
x
x
x 我们得到的输出
o
o
o 是用权重与输入特征进行矩阵-向量乘法加上
b
b
b得到的
交叉熵一般用来衡量两个概率的区别,在这里作为损失函数很合理
H
(
p
,
q
)
=
∑
i
n
−
p
i
l
o
g
q
i
H(p,q) = \sum_i^n -p_ilogq_i
H(p,q)=i∑n−pilogqi
p
,
q
p, q
p,q分别是两个概率集合,都有n个元素,用上述公式求出交叉熵
l
(
y
,
y
^
)
=
−
∑
i
n
y
i
l
o
g
y
^
i
=
−
l
o
g
y
^
y
l(y, \hat y) = -\sum_i^n y_ilog\hat y_i = -log\hat y_y
l(y,y^)=−i∑nyilogy^i=−logy^y 上述就是作为损失函数的交叉熵,对于每个预测概率求log然后乘上真实概率,再对全部的求和取相反数,那事实上one-hot的存在将导致y和y-hat中都是只有一个概率为1剩余概率为0,因此得出结果直接等于对真实类别y的预测的y—hat取log和相反数
这个损失函数的梯度,就是每个真实概率和预测概率的差值(是计算得出的结果而非定义)
交叉熵损失函数是分类问题最常用的损失函数之一
在例子中,数据集由28*28的图像构成,暂时将这784个像素点看做784个特征输入,每个batch-size是256,因此
X
X
X矩阵为256*784,特征矩阵
W
W
W为784*10,偏置
b
b
b为1*10