梯度下降/随机梯度下降

已知对于不同的权值,会得到不同大小的损失。那么如何在训练的过程中,尽快得到损失最小对应的权值呢?

1 梯度下降

#梯度下降算法
x_data=[1.0,2.0,3.0]
y_data=[2.0,4.0,6.0]

w=1.0

def forward(x):
    return x*w

#计算所有样本点的损失
def cost(xs,ys):
    cost=0
    for x,y in zip(xs,ys):
        y_pred=forward(x)
        cost+=(y_pred-y)**2
    return cost/len(xs)

#计算所有样本点的平均梯度值
def gradient(xs,ys):
    grad=0
    for x,y in zip(xs,ys):
        grad+=2*x*(x*w-y)
    return grad/len(xs)

print('Predict(before training)',4,forward(4))
for epoch in range(100):
    cost_val=cost(x_data,y_data)
    grad_val=gradient(x_data,y_data)
    #更新权值
    w-=0.01*grad_val
    print('Epoch:',epoch,'w=',w,'loss=',cost_val)
print('Predict(after training)',4,forward(4))

运行结果 

 

2 随机梯度下降

x_data=[1.0,2.0,3.0]
y_data=[2.0,4.0,6.0]

w=1.0

def forward(x):
    return x*w

#计算单个样本点的损失
def loss(x,y):
    y_pred=forward(x)
    return (y_pred-y)**2

#计算单个样本点的梯度
def gradient(x,y):
    return 2*x*(x*w-y)

print('Predict(before training)',4,forward(4))
for epoch in range(100):
    for x,y in zip(x_data,y_data):
        #每次迭代,对每个样本点都计算梯度,并更新权重
        grad=gradient(x,y)
        w-=0.01*grad
        print('\tgrad:',x,y,grad)
        l=loss(x,y)
    print('progress:',epoch,'w=',w,'loss=',l)

print('Predict(after training)',4,forward(4))

运行结果

3 两种算法的比较

梯度下降使用全部的样本更新权值
随机梯度下降使用单个样本更新权值,利用了样本的随机性
性能来看,随机梯度下降性能好,得到的预测结果更接近真实值
时间来看,梯度下降可以并行运算,所用时间短

为了综合这两种优点,通常深度学习使用batch梯度下降法或者是mini-batch梯度下降

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值