第四次作业：猫狗大战挑战赛

最新推荐文章于 2024-02-03 10:50:54 发布

Wmm......

最新推荐文章于 2024-02-03 10:50:54 发布

阅读量273

点赞数

文章标签：机器学习自然语言处理

本文链接：https://blog.csdn.net/AshesOfTimeeee/article/details/109739572

版权

cat VS dog.ipynb

import numpy as np
import matplotlib.pyplot as plt
import os
import torch
import torch.nn as nn
import torchvision
from torchvision import models,transforms,datasets
import time
import json


# 判断是否存在GPU设备
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print('Using gpu: %s ' % torch.cuda.is_available())

1. 下载数据
用的是老师提供的1800张图片进行训练
在这里插入图片描述

2. 数据处理

normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])

vgg_format = transforms.Compose([
                transforms.CenterCrop(224),
                transforms.ToTensor(),
                normalize,
            ])

data_dir = './dogscats'

dsets = {x: datasets.ImageFolder(os.path.join(data_dir, x), vgg_format)
         for x in ['train', 'valid']}

dset_sizes = {x: len(dsets[x]) for x in ['train', 'valid']}
dset_classes = dsets['train'].classes

3. 创建 VGG Model
下载使用ImageNet （120万张训练数据）上预训练好的通用的CNN模型。

model_vgg = models.vgg16(pretrained=True)

with open('./imagenet_class_index.json') as f:
    class_dict = json.load(f)
dic_imagenet = [class_dict[str(i)][1] for i in range(len(class_dict))]

inputs_try , labels_try = inputs_try.to(device), labels_try.to(device)
model_vgg = model_vgg.to(device)

outputs_try = model_vgg(inputs_try)

print(outputs_try)
print(outputs_try.shape)

'''
可以看到结果为5行，1000列的数据，每一列代表对每一种目标识别的结果。
但是我也可以观察到，结果非常奇葩，有负数，有正数，
为了将VGG网络输出的结果转化为对每一类的预测概率，我们把结果输入到 Softmax 函数
'''
m_softm = nn.Softmax(dim=1)
probs = m_softm(outputs_try)
vals_try,pred_try = torch.max(probs,dim=1)

print( 'prob sum: ', torch.sum(probs,1))
print( 'vals_try: ', vals_try)
print( 'pred_try: ', pred_try)

print([dic_imagenet[i] for i in pred_try.data])
imshow(torchvision.utils.make_grid(inputs_try.data.cpu()), 
       title=[dset_classes[x] for x in labels_try.data.cpu()])

4. 修改最后一层，冻结前面层的参数
卷积层（CONV）是发现图像中局部的 pattern
全连接层（FC）是在全局上建立特征的关联
池化（Pool）是给图像降维以提高特征的 invariance

print(model_vgg)

model_vgg_new = model_vgg;

for param in model_vgg_new.parameters():
    param.requires_grad = False   #冻结前面层的参数
model_vgg_new.classifier._modules['6'] = nn.Linear(4096, 2)
model_vgg_new.classifier._modules['7'] = torch.nn.LogSoftmax(dim = 1)

model_vgg_new = model_vgg_new.to(device)

print(model_vgg_new.classifier)

5. 训练并测试全连接层

'''
第一步：创建损失函数和优化器

损失函数 NLLLoss() 的 输入 是一个对数概率向量和一个目标标签. 
它不会为我们计算对数概率，适合最后一层是log_softmax()的网络. 
'''
criterion = nn.NLLLoss()

# 学习率
#学习率是一个超参数，它控制了我们在多大程度上调整了我们的网络的权重，并对损失梯度进行了调整。
#值越低，沿着向下的斜率就越慢。虽然这可能是个好的办法(使用低学习率)，以确保我们不会错过任何局部极小值
#但这也可能意味着我们要花很长时间才会收敛——尤其是如果我们陷入了停滞不前的区域。
lr = 0.001

# 随机梯度下降
optimizer_vgg = torch.optim.SGD(model_vgg_new.classifier[6].parameters(),lr = lr)

'''
第二步：训练模型
'''

def train_model(model,dataloader,size,epochs=1,optimizer=None):
    model.train()
    
    for epoch in range(epochs):
        running_loss = 0.0
        running_corrects = 0
        count = 0
        for inputs,classes in dataloader:
            inputs = inputs.to(device)
            classes = classes.to(device)
            outputs = model(inputs)
            loss = criterion(outputs,classes)           
            optimizer = optimizer
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            _,preds = torch.max(outputs.data,1)
            # statistics
            running_loss += loss.data.item()
            running_corrects += torch.sum(preds == classes.data)
            count += len(inputs)
            print('Training: No. ', count, ' process ... total: ', size)
        epoch_loss = running_loss / size
        epoch_acc = running_corrects.data.item() / size
        print('Loss: {:.4f} Acc: {:.4f}'.format(
                     epoch_loss, epoch_acc))
        
        
# 模型训练
train_model(model_vgg_new,loader_train,size=dset_sizes['train'], epochs=1, 
            optimizer=optimizer_vgg)

这里训练了处理过的1800张数据得到的结果，可以看到正确率为0.8222。
在这里插入图片描述

这里对2000张图进行验证，可以看到正确率为0.9685

（？图片没传上来）

优化调参

step1.修改优化器
由SGD优化器改为Adam优化器
保存模型为： model_Adam
53 optimizer_vgg = torch.optim.Adam(model_vgg_new.classifier[6].parameters(), lr=lr)
可以看出对1800张图片训练时的正确率提高到了0.9367
在这里插入图片描述

对2000张图片测试时的正确率提高到了0.9805

在这里插入图片描述

step2.增加线性层
新增一个线性层
保存模型为： model_2Linear

'''
可以看到结果为5行，1000列的数据，每一列代表对每一种目标识别的结果。
但是我也可以观察到，结果非常奇葩，有负数，有正数，
为了将VGG网络输出的结果转化为对每一类的预测概率，我们把结果输入到 Softmax 函数
'''
m_softm = nn.Softmax(dim=1)
probs = m_softm(outputs_try)
vals_try,pred_try = torch.max(probs,dim=1)

print( 'prob sum: ', torch.sum(probs,1))
print( 'vals_try: ', vals_try)
print( 'pred_try: ', pred_try)

print([dic_imagenet[i] for i in pred_try.data])
#imshow(torchvision.utils.make_grid(inputs_try.data.cpu()), 
       #title=[dset_classes[x] for x in labels_try.data.cpu()])
print(model_vgg)

model_vgg_new = model_vgg;

for param in model_vgg_new.parameters():
    param.requires_grad = False
model_vgg_new.classifier._modules['6'] = nn.Linear(4096, 4096)
model_vgg_new.classifier._modules['7'] = nn.ReLU(inplace=False)
model_vgg_new.classifier._modules['8'] = nn.Dropout(p=0.5,inplace=False)
model_vgg_new.classifier._modules['9'] = nn.Linear(4096, 2)
model_vgg_new.classifier._modules['10'] = torch.nn.LogSoftmax(dim=1)

model_vgg_new = model_vgg_new.to(device)

print(model_vgg_new.classifier)

训练4次达到了0.9761的正确率
在这里插入图片描述
对2000张图片进行测试正确为0.9780

加了一个线性层测试的正确率反而低了。

step3.增加训练轮数epochs为100. 同时再增加一层线性层，保存最后一个训练的模型。
在这里插入图片描述
对2000张图片进行测试正确同样为0.9780，可以看出正确率有所增加。


'''
第一步：创建损失函数和优化器

损失函数 NLLLoss() 的 输入 是一个对数概率向量和一个目标标签. 
它不会为我们计算对数概率，适合最后一层是log_softmax()的网络. 
'''
criterion = nn.NLLLoss()

# 学习率
lr = 0.001

# 随机梯度下降
optimizer_vgg = torch.optim.Adam(model_vgg_new.classifier[6].parameters(),lr = lr)

'''
第二步：训练模型
'''

def train_model(model,dataloader,size,epochs=100,optimizer=None):
    model.train()
    for epoch in range(epochs):
        running_loss = 0.0
        running_corrects = 0
        count = 0
        for inputs,classes in dataloader:
            inputs = inputs.to(device)
            classes = classes.to(device)
            outputs = model(inputs)
            loss = criterion(outputs,classes)           
            optimizer = optimizer
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            _,preds = torch.max(outputs.data,1)
            # statistics
            running_loss += loss.data.item()
            running_corrects += torch.sum(preds == classes.data)
            count += len(inputs)
            print('Training: No. ', count, ' process ... total: ', size)
        epoch_loss = running_loss / size
        epoch_acc = running_corrects.data.item() / size
        print('Loss: {:.4f} Acc: {:.4f}'.format(
                     epoch_loss, epoch_acc))
        

    torch.save(model, '/content/drive/MyDrive/Models/model_epoch')
# 模型训练
train_model(model_vgg_new,loader_train,size=dset_sizes['train'], epochs=100, 
            optimizer=optimizer_vgg)

step4.将比赛用的数据集与现在的数据集合并并且增加batch_size的大小
一开始不知道怎么合并，问了问同学才知道就是用很原始的方法，直接把要添加的图片拖到老师给的数据集里，然后再上传到云盘就可以。但是上传很费时间，而且网络总是断。（目前还在传）。
数据集图片数量增大了之后，可以考虑增加batch_size，这种方法对于大规模的数据的训练很有效。
在这里插入图片描述
已经上传好数据集了，这里注意数据集的数据机构。我同时增加了训练次数。
我把batch_size设置为128，一共有21800个图片，所以需要171组数据。
30多轮的时候正确率大概是0.9857 了，所以我的batch_size设置的太大了，特别费时间，不知道怎么中途改变训练次数，而且GPU使用达到了上限了，所以第二天就设置了30轮。
在这里插入图片描述
训练30次的正确率大概是0.9878

在这里插入图片描述

测试的正确率是0.4290（不知道为什么这么低）
在这里插入图片描述

在比赛集上测试并且生成结果文件

step1.修改优化器为Adam
在这里插入图片描述

step2.新增一个线性层
在这里插入图片描述
step3.新增两个线性层并且增加了训练次数

step4 将比赛用的数据集与现在的数据集合并并且增加batch_size的大小

在这里插入图片描述

遇到的问题

开始很困难，遇到了各种各样的bug，有时候是很低级的错误，比如
1.图片不知道为什么破损了
在这里插入图片描述

出现这种错误可能是缺少库，还有一次是代码对齐出现问题，没有写到函数里。
在这里插入图片描述
Q:Step4的时候在测试的时候正确率非常低，但是出来的结果正确率却比之前上升了，不知道是什么原因。

Wmm......

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第四次作业：猫狗大战挑战赛

cat VS dog.ipynbimport numpy as npimport matplotlib.pyplot as pltimport osimport torchimport torch.nn as nnimport torchvisionfrom torchvision import models,transforms,datasetsimport timeimport json# 判断是否存在GPU设备device = torch.device("cuda:0" if
复制链接

扫一扫