Task4 模型训练与验证

最新推荐文章于 2022-04-27 15:09:32 发布

猫街小巷�

最新推荐文章于 2022-04-27 15:09:32 发布

阅读量252

点赞数

分类专栏： CV字符识别

本文链接：https://blog.csdn.net/qq_44072118/article/details/106446846

版权

CV字符识别专栏收录该内容

4 篇文章 0 订阅

订阅专栏

4 模型训练与验证

4.1 学习目标

使用pytorch进行读取加载，了解调参的流程

4.2构造验证集

训练集（Training Set）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。
验证集（Validation Set）：用来做模型选择（model selection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，可选；
测试集（Test Set）：为了测试已经训练好的模型的精确度。当然，test set这并不能保证模型的正确性，他只是说相似的数据用此模型会得出相似的结果。因为我们在训练模型的时候，参数全是根据现有训练集里的数据进行修正、拟合，有可能会出现过拟合的情况，即这个参数仅对训练集里的数据拟合比较准确，这个时候再有一个数据需要利用模型预测结果，准确率可能就会很差。
————————————————

在模型的训练过程中，模型只能利用训练数据来进行训练，模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好，模型就会记住训练样本的细节，导致模型在测试集的泛化效果较差，这种现象称为过拟合（Overfitting）。与过拟合相对应的是欠拟合（Underfitting），即模型在训练集上的拟合效果较差。
验证集的划分有如下几种方式：

留出法:直接将训练集划分成两部分，新的训练集和验证集。这种划分方式的优点是最为直接简单；缺点是只得到了一份验证集，有可能导致模型在验证集上过拟合。留出法应用场景是数据量比较大的情况。
交叉验证法（Cross Validation，CV）：”交叉验证法”先将数据集D划分为k个大小相似的互斥子集，即D=D1∪D2∪…∪Dk,Di∩Dj=∅(i≠j)D=D1∪D2∪…∪Dk,Di∩Dj=∅(i≠j)。每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的子集作为测试集；这样就可以获得k组训练/测试集，从而可以进行k次训练和测试，最终返回的是k个测试结果的均值。

显然，交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值，为了强调这一点，通常把交叉验证法称为”k折交叉验证”（k-fold cross validation），k通常取10—10折交叉验证。
在这里插入图片描述

自助采样法（BootStrap）:通过有放回的采样方式得到新的训练集和验证集，每次的训练集和验证集都是有区别的。这种划分方式一般适用于数据量较小的情况。

4.3模型训练与验证

构造训练集和验证集；
每轮进行训练和验证，并根据最优验证集精度保存模型。

train_loader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=10, 
    shuffle=True, 
    num_workers=10, 
)
    
val_loader = torch.utils.data.DataLoader(
    val_dataset,
    batch_size=10, 
    shuffle=False, 
    num_workers=10, 
)

model = SVHN_Model1()
criterion = nn.CrossEntropyLoss (size_average=False)
optimizer = torch.optim.Adam(model.parameters(), 0.001)
best_loss = 1000.0
for epoch in range(20):
    print('Epoch: ', epoch)

    train(train_loader, model, criterion, optimizer, epoch)
    val_loss = validate(val_loader, model, criterion)
    
    # 记录下验证集精度
    if val_loss < best_loss:
        best_loss = val_loss
        torch.save(model.state_dict(), './model.pt')

其中每个Epoch的训练代码如下：

def train(train_loader, model, criterion, optimizer, epoch):
    # 切换模型为训练模式
    model.train()

    for i, (input, target) in enumerate(train_loader):
        c0, c1, c2, c3, c4, c5 = model(data[0])
        loss = criterion(c0, data[1][:, 0]) + \
                criterion(c1, data[1][:, 1]) + \
                criterion(c2, data[1][:, 2]) + \
                criterion(c3, data[1][:, 3]) + \
                criterion(c4, data[1][:, 4]) + \
                criterion(c5, data[1][:, 5])
        loss /= 6
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

其中每个Epoch的验证代码如下：

def validate(val_loader, model, criterion):
    # 切换模型为预测模型
    model.eval()
    val_loss = []

    # 不记录模型梯度信息
    with torch.no_grad():
        for i, (input, target) in enumerate(val_loader):
            c0, c1, c2, c3, c4, c5 = model(data[0])
            loss = criterion(c0, data[1][:, 0]) + \
                    criterion(c1, data[1][:, 1]) + \
                    criterion(c2, data[1][:, 2]) + \
                    criterion(c3, data[1][:, 3]) + \
                    criterion(c4, data[1][:, 4]) + \
                    criterion(c5, data[1][:, 5])
            loss /= 6
            val_loss.append(loss.item())
    return np.mean(val_loss)

4.4 模型保存与加载

在Pytorch中模型的保存和加载非常简单，比较常见的做法是保存和加载模型参数：

torch.save(model_object.state_dict(), 'model.pt')
model.load_state_dict(torch.load(' model.pt'))

猫街小巷�

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task4 模型训练与验证

4 模型训练与验证4.1 学习目标使用pytorch进行读取加载，了解调参的流程4.2构造验证集训练集（Training Set）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集（Validation Set）：用来做模型选择（model selection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，可选；测试集（Test Set）：为了测试已经训练好的模型的精确度。当然，test set这并不能保证模型的正确性，他只是说相似的数据用此模型会得出
复制链接

扫一扫