初始PyTorch(一):梯度下降

 

一、批量梯度下降Batch Gradient Descent:

普通的BGD算法是每次迭代把所有样本都过一遍,每训练一组样本就把梯度更新一次。
简单的一元二次方程:y=wx+b,有时加入噪声\varepsilon。损失函数loss=\frac{1}{n}*(wx+b-y)^{2}

def loss(b, w, points):
    totalError = 0
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        totalError += (y - (w * x + b)) ** 2
    return totalError / float(len(points))

利用梯度下降法求损失函数的最小的那个点:

loss=\frac{1}{n}*(wx+b-y)^{2}求[w,b]的偏导,其中\frac{\Delta loss}{\Delta b}= 2*\frac{1}{n}*(wx+b-y),\frac{\Delta loss}{\Delta w}= 2*\frac{1}{n}*x*(wx+b-y)

优化函数:x=x-lr*x'

其中执行一次:

def step_gradient(b_current, w_current, points, learningRate):
    b_gradient = 0
    w_gradient = 0
    N = float(len(points))
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        b_gradient += -(2/N) * (y - ((w_current * x) + b_current))
        w_gradient += -(2/N) * x * (y - ((w_current * x) + b_current))
    new_b = b_current - (learningRate * b_gradient)
    new_m = w_current - (learningRate * w_gradient)
    return [new_b, new_m]

执行N次:

def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations):
    b = starting_b
    m = starting_m
    for i in range(num_iterations):
        b, m = step_gradient(b, m, np.array(points), learning_rate)
    return [b, m]

运行:

def run():
#设置lr为0.0001,bm初始值为0,迭代1000次,points导入csv。
    learning_rate = 0.0001
    initial_b = 0 
    initial_m = 0 
    num_iterations = 1000

    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations)

 

Gradient API:

autograd.grad自动求梯度

#求w的梯度 αloss/αw
w=torch.tensor([1.],require_regred=True)  #w.requires_grad_()
mse=F.mse_loss(y_pred,w*x+b)
torch.autograd.grad(mse,[w])#[W1,W2...Wn]

loss.backward求梯度

mse=F.mse_loss(y_pred,y)
mse.backward()
w.grad
#w.grad.norm()是对w梯度求二范式

随机梯度下降Stochastic Gradient Descent

函数:H(\Theta)=\sum \Theta_{j} *x_{j}=\Theta_{0}+\Theta_{1}*x_{1}+...,损失函数:

最小化损失函数,参数θ按其负梯度方向来更新:

SGD算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9) #w=w'-lr*w'

待扩展

pytorch中使用torch.optim优化神经网络以及优化器的选择

torch.optim

各种优化方法总结比较

Adam...

optimizer = optim.Adam([var1, var2], lr = 0.0001)
x = torch.tensor([-4., 0.], requires_grad=True)
optimizer = torch.optim.Adam([x], lr=1e-3) #x=x-x'*lr,y=y-y'*lr
for step in range(20000):

    pred = himmelblau(x)

    optimizer.zero_grad()
    pred.backward()
    optimizer.step()

    if step % 2000 == 0:
        print ('step {}: x = {}, f(x) = {}'
               .format(step, x.tolist(), pred.item()))

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nooobme

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值