【动手学深度学习v2】深度学习，从零理解权重衰退_防止过拟合方法——李沐老师的课程笔记

laownb

已于 2024-08-08 14:16:43 修改

阅读量383

点赞数 15

分类专栏：深度学习问题探讨文章标签：深度学习笔记人工智能

于 2024-08-08 14:12:39 首次发布

本文链接：https://blog.csdn.net/laownb/article/details/141025389

版权

深度学习问题探讨专栏收录该内容

4 篇文章 0 订阅

订阅专栏

深度学习，从零实现多层感知机——李沐老师的课程笔记

对于深度学习，非常推荐李沐老师的课程，受益匪浅

课程视频

这里对源码做一些注释，希望大家可以更好理解这里面的意思

没有基础不知道软件如何安装的可以看Python深度学习：安装Anaconda、PyTorch（GPU版）库与PyCharm_哔哩哔哩_bilibili

有基础的也可以直接看代码，来加深理解

若有差错，请与我联系探讨pwp

## 一、权重衰退（防止过拟合）

### 1.1 硬性限制

2范数（l2-norm）（图1中用的是2范数加平方，即平方和）：

一般不用（因为麻烦）：
xw+b中，w作为参数，在我看来就是权重，权重衰退中，使用
$$
图1：
$$

二范数来限制w每一项的大小，来防止某一项特别大，比如不还钱的都是穿蓝衣服的人，防止过拟合这样的数据。

### 1.2 柔性限制

一般常用：
$$
图2：
$$

这里的柔性限制和之前的有点像，首先确定纳姆塔，这个是超参数，确定完之后就清楚了，我们就可以把式子看作是色塔减去最小的loss×纳姆塔分之二，等于w的2范数了，也是一样限制了w的大小，但是仔细一想，作为结果y的参数里面有loss，即中间有w所以写成图片中形式，这样就不用变为隐函数了.
结合下面图片，
1.（仔细想了一下，这里的色塔应该是和上一张图片一样，需要大于等于图中的式子）
2.括号里对，但不完全对，我又仔细查了一下这里是吧整个式子替换loss，使得要求这里的最小值，下面图片是在说明现在的loss和以前的loss区别是什么。
3.上面括号里不对啊，第三遍反思，这里的意思是无论图1的色塔取什么，图1的不等式都可以用图二的式子来表示相同的意思，但是图1是不等式，图二是取最小值，也就是说无论图1中的色塔把w限制的程度有多大，在图2（中用于替换原来损失函数的式子）都可以表达相同的意思，前者把色塔缩小来限制，后者把纳姆塔放大来限制。

这里得把w看作向量（x1，x2），当作w的一个缩影（因为一般w的维度更大），此时这张图就清晰了，也就是二元函数求最小值，一方面要loss尽可能小，一方面要求w的2范数小

##二、代码

%matplotlib inline
import torch
from torch import nn
from d2l import torch as d2l


n_train, n_test, num_inputs, batch_size = 20, 100, 200, 5
true_w, true_b = torch.ones((num_inputs, 1)) * 0.01, 0.05
train_data = d2l.synthetic_data(true_w, true_b, n_train)
train_iter = d2l.load_array(train_data, batch_size)
test_data = d2l.synthetic_data(true_w, true_b, n_test)
test_iter = d2l.load_array(test_data, batch_size, is_train=False)


def init_params():
    w = torch.normal(0, 1, size=(num_inputs, 1), requires_grad=True)
    b = torch.zeros(1, requires_grad=True)
    return [w, b]


def l2_penalty(w):
    return torch.sum(w.pow(2)) / 2


def train(lambd):
    w, b = init_params()
#   这里的lambda x：是一个匿名函数，这里可以看作是net= d2l.linreg(X, w, b)，
#   但是这里区别在于用了这个匿名函数后需要传入参数x，注意，这里的lambda不是train（lambd）里面的参数
    net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss
    num_epochs, lr = 100, 0.003
    animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',
                            xlim=[5, num_epochs], legend=['train', 'test'])
    for epoch in range(num_epochs):
        for X, y in train_iter:
            with torch.enable_grad():
                l = loss(net(X), y) + lambd * l2_penalty(w)
            l.sum().backward()
            d2l.sgd([w, b], lr, batch_size)
        if (epoch + 1) % 5 == 0:
            animator.add(epoch + 1, (d2l.evaluate_loss(net, train_iter, loss),
                                     d2l.evaluate_loss(net, test_iter, loss)))
    print('w的L2范数是：', torch.norm(w).item())

    
train(lambd=0)

train(lambd=3)

laownb

关注

15
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【动手学深度学习v2】深度学习，从零理解权重衰退_防止过拟合方法——李沐老师的课程笔记

深度学习，从零实现多层感知机——李沐老师的课程笔记对于深度学习，非常推荐李沐老师的课程，受益匪浅课程视频这里对源码做一些注释，希望大家可以更好理解这里面的意思没有基础不知道软件如何安装的可以看有基础的也可以直接看代码，来加深理解若有差错，请与我联系探讨pwp。
复制链接

扫一扫