《动手学pytorch》梯度下降，随机梯度下降，小批量随机梯度下降

最新推荐文章于 2023-10-27 11:37:38 发布

Jason36912

最新推荐文章于 2023-10-27 11:37:38 发布

阅读量521

点赞数

分类专栏： pytorch python 文章标签： python 机器学习

本文链接：https://blog.csdn.net/weixin_43100127/article/details/104479613

版权

python 同时被 2 个专栏收录

22 篇文章 1 订阅

订阅专栏

pytorch

10 篇文章 0 订阅

订阅专栏

1.1 一维梯度下降
在这里插入图片描述
以 y = x^2为例

def f(x):
    return x**2  # Objective function

def gradf(x):
    return 2 * x  # Its derivative

def gd(eta):
    x = 10
    results = [x]
    for i in range(10):
        x -= eta * gradf(x)
        results.append(x)
    print('epoch 10, x:', x)
    return results

res = gd(0.2)

def show_trace(res):
    n = max(abs(min(res)), abs(max(res)))
    f_line = np.arange(-n, n, 0.01)
    d2l.set_figsize((3.5, 2.5))
    d2l.plt.plot(f_line, [f(x) for x in f_line],'-')
    d2l.plt.plot(res, [f(x) for x in res],'-o')
    d2l.plt.xlabel('x')
    d2l.plt.ylabel('f(x)')
    

show_trace(res)

1.2 多维梯度下降
在这里插入图片描述
1.3 牛顿法

2、随机梯度下降
动态学习率

3. 小批量随机梯度下降
通过batch_size进行梯度更新

for batch_i, (X, y) in enumerate(data_iter):
            l = loss(net(X, w, b), y).mean()  # 使用平均损失
            
            # 梯度清零
            if w.grad is not None:
                w.grad.data.zero_()
                b.grad.data.zero_()
                
            l.backward()
            optimizer_fn([w, b], states, hyperparams)  # 迭代模型参数
            if (batch_i + 1) * batch_size % 100 == 0:
                ls.append(eval_loss())  # 每100个样本记录下当前训练误差

参考资料：《动手学pytorch》,伯禹学习平台