动手学深度学习学习笔记(12)

模型选择,欠拟合,过拟合
有的时候,模型在训练数据集上十分准确,但是在测试数据集上却不一定。

训练误差和泛化误差
通常,训练误差指模型在训练数据集上表现出的误差的期望,泛化误差指模型在任意一个测试数据样本上表现出的误差,并常常听过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用损失函数。

在机器学习中,通常假设训练数据集和测试数据集里的每一个样本都是从同一个概率分布中相互独立地生成的。基于这个假设,给定任意一个机器学习模型,它的训练误差的期望和泛化误差都是一样的。
由于参数是在训练数据集上训练模型而学习出来的,所以训练误差的期望小于或等于泛化误差。
也就是模型在训练数据集上的表现优于或等于在测试数据集上的表现。
优于无法从训练误差估计泛化误差,一味地降低训练误差并不意味的泛化误差一定会降低。

模型选择
机器学习中,通常要评估若干模型的表现并从中选择模型,这一过程称为模型选择。

验证数据集
通常测试集只能在所有超参数和模型参数选定后使用一次,不可以用测试数据选择模型。由于无法从训练误差估计泛化误差,因此也不能以来训练数据集选择模型。
所以预留一部分在训练集和测试集以外的数据进行模型选择,称为测试数据集,简称验证集。
可以从给定的训练集中随机选取一小部分作为验证机,剩余的作为真正的训练集。
十几种,由于数据不容易获取,所以验证数据集和测试数据集的界限可能比较模糊。

K折交叉验证
由于验证数据不参与模型训练,所以当训练数据不够用是,预留大量的验证数据不现实。一种改善方法是K折交叉验证(K-fold cross-validation)。在K折交叉验证中,把原始训练数据集分成K个不重合的子数据集,然后做K次模型训练和验证。
每次使用一个子数据集来验证模型,并使用其他K-1个子数据集来训练模型。每次用来训练模型的子数据集都不同。
最后,对这K次训练误差和验证误差分别求平均。

欠拟合和过拟合
模型训练中经常出现的两类典型问题:一类是模型无法得到较低的训练误差,将这一现象称为欠拟合。
一类是模型的训练误差远小于在测试数据集上的误差,将其称为过拟合。
这里重点讨论两个因素,模型复杂度和训练数据集大小

模型复杂度
多项式函数拟合的目标是找一个K阶多项式函数来近似y。
与线性回归相同,多项式函数拟合也使用平方损失函数。
特别地,一阶多项式函数拟合又叫线性函数拟合。
由于高阶多项式函数模型参数更多,模型函数的选择空间更大,所以高阶多项式函数比低阶多项式函数的复杂度更高。
所以,高阶多项式函数比低阶多项式函数更容易在相同的训练数据集上获得更低的训练误差。
给定训练数据集,如果模型的复杂度过低,和容易出现欠拟合,如果复杂度过高,很容易出现过拟合,所以应该选择复杂度合适的模型。

训练数据集大小
一般来说,如果训练数据集中样本数过少,特别是比模型参数数量更少时,过拟合更容易发生。
泛化误差不会随训练数据集例样本数量增加而增大。因此,在计算资源允许的范围内,我们通常希望训练数据集大一些,特别是在模型复杂度高时,例如层次较多的深度学习模型。

多项式函数拟合实验

%matplotlib inline
import torch
import numpy as np
import sys
sys.path.append("...")
import d2lzh_pytorch as d2l

生成数据集
生成一个人工数据集。在训练数据集合测试数据集中,给定样本特征X,使用以下多项式去生成label。
y = 1.2x - 3.4x2 + 5.6x3 + 5 + ε
其中噪声项ε服从均值为0,标准差为0.01的正态分布。训练数据集和测试数据集都设为100.

n_train, n_test, true_w, true_b = 100,100,[1.2,-3.4,5.6], 5
features = torch,randn((n_train + n_test, 1))
#标准正态分布,参数是size
poly_features = torch.cat((features, torch.pow(features, 2), torch.pow(features,3)),1#torch.cat()将两个张量,按指定的维度,拼接在一起
labels = (true_w[0] * poly_features[:, 0] + true_w[1] * poly_features[:, 1] + true_w[2] * poly_features[:, 2] +true_b)
labels += torch.tensor(np.random.normal(0,0.01,size = labels.size()),dtype = torch.float)

观察生成数据集的前两个样本

print(features[:2],poly_features[:2],labels[:2])

输出

tensor([[ 2.6790],
        [-2.3950]]) tensor([[  2.6790,   7.1769,  19.2268],
        [ -2.3950,   5.7360, -13.7378]]) tensor([ 91.4843, -94.3214])

定义 训练和测试模型
先定义作图函数semilogy,其中y轴使用了对数尺度

def semilogy(x_vals, y_vals, x_label, y_label, x2_vals = None, y2_vals = None, legend = None, figsize = (3.5,2.5)):
	d2l.set_figsize(figsize)
	d2l.plt.xlabel(x_label)
	d2l.plt.ylabel(y_label)
	d2l.plt.semilogy(x_vals, y_vals)
	if x2_vals and y2_vals:
		d2l.plt.semilogy(x2_vals, y2_vals, linestyle = ':')
		d2l.plt.legend(legend)

多项式函数拟合也使用平方损失函数。
尝试用不同复杂度的模型来拟合生成的书籍,把模型定义部分放在fit_and_plot函数中。

num_epochs = 100
loss = torch.nn.MSELoss()
def fit_and_plot(train_features, test_features, train_labels, test_labels):
	net = torch.nn.Linear(train_features.shape[-1],1)
	#pytorch已经初始化参数
	batch_szie = min(10, train_labels.shape[0])
	dataset = torch.units.data.TensorDataset(train_features, train_labels)
	train_iter = torch.utils.data.DataLoader(dataset, batch_size, shuffle = True)

	optimizer = torch.optim.SGD(net.parameters,lr = 0.01)
	train_ls, test_ls = [], []
	for _ in range(num_epochs):
		for X, y in train_iter:
			l = loss(net(X), y.view(-1,1))
			optimizer.zero_grad()
			l.backward()
			optimizer.step()
		train_labels = train_labels.view(-1,1)
		test_labels = test_labels.view(-1,1)
		train_ls.append(loss(net(train_features),train_labels).item())				
		test_ls.append(loss(net(test_features), test_labels).item())
		print('final epoch: train loss', train_ls[-1], 'test loss', test_ls[-1])
		semilogy(range(1,num_epochs + 1), train_ls , 'epochs', 'loss', range(1, num_epochs + 1), test_ls, ['train','test'])
		print('weight',net.weight.data,
			'\nbias',net.bias.data)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值