过拟合和欠拟合

最新推荐文章于 2023-01-22 22:38:10 发布

VIP文章 weixin_43288596

最新推荐文章于 2023-01-22 22:38:10 发布

阅读量186

点赞数

本文链接：https://blog.csdn.net/weixin_43288596/article/details/104399642

版权

1. 过拟合和欠拟合

欠拟合 (underfitting) : 模型无法得到较低的训练误差
过拟合 (overfitting) : 模型的训练误差远小于它在测试数据集上的误差

模型越简单, 容易欠拟合, 模型越复杂, 容易过拟合

训练数据越少越容易过拟合

2. 过拟合解决方法

2.0增大训练集

2.1 权重衰减

权重衰减等价于范数正则化 (regularization) . 正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小, 是应对过拟合的常用手段. 范数正则化是在模型的原损失函数基础上添加范数惩罚项, 从而得到新的目标函数.

范数惩罚项是模型权重参数每个元素的平方和与一个常数的乘积.

# 正则项
def l2_penalty(w):
    return (w**2).sum() / 2
net, loss = d2l.linreg, d2l.squared_loss
l = loss(net(X, w, b), y) + lambd * l2_penalty(w) # 新损失项

# 或者torch.optim.SGD中自带了权重衰减参数
torch.optim.SGD(params=[net.weight], lr=lr, weight_decay=wd)

2.2 丢弃法

以前面学习过的多层感知机为例, 使用丢弃法. 当对该隐藏层使用丢弃法时, 该层的隐藏单元将有一定概率被丢弃掉.

对多层感知机的隐层使用丢弃法

设丢弃概率为, 那么有的概率会被清零, 有的概率会除以做拉伸. 丢弃概率是丢弃法的超参数. 具体来说, 设随机变量为和的概率分别为和 . 新的隐藏单元, 而, 则. 即丢弃法不改变其输入的期望值.

由于在训练中隐藏层神经元的丢弃是随机的，即都有可能被清零，输出层的计算无法过度依赖中的任一个，从而在训练模型时起到正则化的作用，并可以用来应对过拟合。在测试模型时，我们为了拿到更加确定性的结果，一般不使用丢弃法

从头实现

def dropout(X, drop_prob):
    X = X.float()
    assert 0 <= drop_prob <= 1
    keep_prob = 1 - drop_prob
    # 这种情况下把全部元素都丢弃
    if keep_prob == 0:
        return torch.zeros_like(X)
    mask = (torch.rand(X.shape) < keep_prob).float()
    
    return mask * X / keep_prob

drop_prob1, drop_prob2 = 0.2, 0.5

def net(X, is_training=True):
    X = X.view(-1, num_inputs)
    H1 = (torch.matmul(X, W1) + b1).relu()
    if is_training:  # 只在训练模型时使用丢弃法
        H1 = dropout(H1, drop_prob1)  # 在第一层全连接后添加丢弃层
    H2 = (torch.matmul(H1, W2) + b2).relu()
    if is_training:
        H2 = dropout(H2, drop_prob2)  # 在第二层全连接后添加丢弃层
    return torch.matmul(H2, W3) + b3

简洁实现
直接使用torch.nn模块中的Dropout类构建模型

        d2l.FlattenLayer(),
        nn.Linear(num_inputs, num_hiddens1),
        nn.ReLU(),
        nn.Dropout(drop_prob1),
        nn.Linear(num_hiddens1, num_hiddens2), 
        nn.ReLU(),
        nn.Dropout(drop_prob2),
        nn.Linear(num_hiddens2, 10)
        )

1. 梯度消失和梯度爆炸

这是DL中有关数值稳定性的经典问题, 当神经网络的层数较多时容易出现. 例如, 在激活函数为恒等变换时 ( $math?formula=%5Cphi(x)%3Dx$ 转存失败重新上传取消 $\phi(x)=x$ ), 给定输入 $math?formula=%5Cboldsymbol%7BX%7D$ 转存失败重新上传取消 $\boldsymbol{X}$ ，多层感知机的第层的输出 $math?formula=%5Cboldsymbol%7BH%7D%5E%7B(l)%7D%20%3D%20%5Cboldsymbol%7BX%7D%20%5Cboldsymbol%7BW%7D%5E%7B(1)%7D%20%5Cboldsymbol%7BW%7D%5E%7B(2)%7D%20%5Cldots%20%5Cboldsymbol%7BW%7D%5E%7B(l)%7D$ 转存失败重新上传取消 $\boldsymbol{H}^{(l)} = \boldsymbol{X} \boldsymbol{W}^{(1)} \boldsymbol{W}^{(2)} \ldots \boldsymbol{W}^{(l)}$ , 若所有层的权重都是标量如0.2和5, 则在第30层处的输出为 $math?formula=0.2%5E%7B30%7D%5Cto0$ 转存失败重新上传取消 $0.2^{30}\to0$ (消失) 和 $math?formula=5%5E30%5Cto%5Cinfty$ 转存失败

最低0.47元/天解锁文章

weixin_43288596

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
过拟合和欠拟合

1. 过拟合和欠拟合欠拟合 (underfitting) : 模型无法得到较低的训练误差过拟合 (overfitting) : 模型的训练误差远小于它在测试数据集上的误差模型越简单, 容易欠拟合, 模型越复杂, 容易过拟合训练数据越少越容易过拟合2. 过拟合解决方法2.0增大训练集2.1 权重衰减权重衰减等价于范数正则化 (regularization) . 正...
复制链接

扫一扫