已知对于不同的权值,会得到不同大小的损失。那么如何在训练的过程中,尽快得到损失最小对应的权值呢?
1 梯度下降
#梯度下降算法
x_data=[1.0,2.0,3.0]
y_data=[2.0,4.0,6.0]
w=1.0
def forward(x):
return x*w
#计算所有样本点的损失
def cost(xs,ys):
cost=0
for x,y in zip(xs,ys):
y_pred=forward(x)
cost+=(y_pred-y)**2
return cost/len(xs)
#计算所有样本点的平均梯度值
def gradient(xs,ys):
grad=0
for x,y in zip(xs,ys):
grad+=2*x*(x*w-y)
return grad/len(xs)
print('Predict(before training)',4,forward(4))
for epoch in range(100):
cost_val=cost(x_data,y_data)
grad_val=gradient(x_data,y_data)
#更新权值
w-=0.01*grad_val
print('Epoch:',epoch,'w=',w,'loss=',cost_val)
print('Predict(after training)',4,forward(4))
运行结果
2 随机梯度下降
x_data=[1.0,2.0,3.0]
y_data=[2.0,4.0,6.0]
w=1.0
def forward(x):
return x*w
#计算单个样本点的损失
def loss(x,y):
y_pred=forward(x)
return (y_pred-y)**2
#计算单个样本点的梯度
def gradient(x,y):
return 2*x*(x*w-y)
print('Predict(before training)',4,forward(4))
for epoch in range(100):
for x,y in zip(x_data,y_data):
#每次迭代,对每个样本点都计算梯度,并更新权重
grad=gradient(x,y)
w-=0.01*grad
print('\tgrad:',x,y,grad)
l=loss(x,y)
print('progress:',epoch,'w=',w,'loss=',l)
print('Predict(after training)',4,forward(4))
运行结果
3 两种算法的比较
梯度下降使用全部的样本更新权值
随机梯度下降使用单个样本更新权值,利用了样本的随机性
从性能来看,随机梯度下降性能好,得到的预测结果更接近真实值
从时间来看,梯度下降可以并行运算,所用时间短
为了综合这两种优点,通常深度学习使用batch梯度下降法或者是mini-batch梯度下降