第2周学习：卷积神经网络基础

_warrior_

已于 2022-07-19 19:21:01 修改

阅读量1.4k

点赞数 1

文章标签： cnn 学习深度学习

于 2022-07-19 19:17:50 首次发布

本文链接：https://blog.csdn.net/walkinginq/article/details/125868762

版权

1 绪论

1.1 卷积神经网络的应用

分类：
在这里插入图片描述
检索：

检测：
在这里插入图片描述

分割：
在这里插入图片描述

人脸识别：
在这里插入图片描述

图像生成：
在这里插入图片描述

图像风格转化：
在这里插入图片描述

自动驾驶：
在这里插入图片描述

1.2 传统神经网络vs卷积神经网络

深度学习三部曲：

Step 1. 搭建神经网络结构
Step 2. 找到一个合适的损失函数
Step 3. 找到一个合适的优化函数，更新参数

传统神经网络vs卷积神经网络：
在这里插入图片描述
全连接网络处理图像的问题：
参数太多，权重矩阵的参数太多，导致过拟合。
卷积神经网络的解决方式：
局部关联，参数共享
相同之处：都是层级结构

2 网络基本组成结构

2.1 卷积

什么是卷积：
卷积是对两个实变函数的一种数学操作。在图像处理中，图像是以二维矩阵的形式输入到神经网络的。
在这里插入图片描述

2.2 池化

Pooling：

保留了主要特征的同时减少参数和计算量，防止过拟合，提高模型泛化能力。
一般处于卷积层与卷积层之间，全连接层与全连接层之间

Pooling的类型：

Max pooling: 最大值池化
Average pooling: 平均池化

在这里插入图片描述

2.3 全连接

全连接层 / FC layer：

两层之间所有神经元都有权重链接
通常在卷积神经网络尾部
通常参数量最大

2.4 小结

卷积网络是由卷积层、池化层、全连接层交叉堆叠而成
局部关联，参数共享
没有padding时输出的特征图大小：(N-F)/stride+1
有padding时输出的特征图大小：(N+padding*2- F)/stride+1
Pooling的类型：Max pooling: 最大值池化，Average pooling: 平均池化
全连接：通常全连接层在卷积神经网络尾部

3 卷积神经网络典型结构

3.1 AlexNet

AlexNet 是具有历史意义的一个网络结构，在AlexNet之前，深度学习已经沉寂了很久。历史的转折在2012年到来，AlexNet
在当年的ImageNet图像分类竞赛中，错误率比上一年的冠军下降了十个百分点，而且远远超过当年的第二名。

模型结构：
在这里插入图片描述

大数据训练：百万级ImageNet图像数据
非线性激活函数：ReLU（解决了梯度消失的问题，计算、收敛速度特别快）
防止过拟合：Dropout, Data augmentation

DropOut（随机失活）：
训练时随机关闭部分神经元，测试时整合所有神经元
在这里插入图片描述
Data augmentation（数据增强）：

平移、翻转、对称：
随机crop，训练时对于256＊256的图片进行随机crop到224＊224。
水平翻转，将样本倍增。
改变RGB通道强度：
对RGB空间做一个高斯扰动。

AlexNet分层解析：
在这里插入图片描述

第一次卷积：卷积 - ReLU - 池化
第二次卷积：卷积 – ReLU - 池化
第三次卷积：卷积 - ReLU
第四次卷积：卷积 - ReLU
第五次卷积：卷积 – ReLU – 池化
第六层：全连接 – ReLU – DropOut
第七层：全连接 – ReLU – DropOut
第八层：全连接 – SoftMax

参数数量：
在这里插入图片描述

ZFNet：2013年ImageNet图像分类竞赛的冠军

网络结构与AlexNet相同
将卷积层1中的感受野大小由1111改为77，步长由4改为2
卷积层3，4，5中的滤波器个数由384，384，256改为512，512，1024

3.2 VGG

VGG是一个更深网络
8 layers (AlexNet) -> 16 – 19 (VGG)

VGG16:
在这里插入图片描述

3.3 GoogleNet

2014年ImageNet图像分类竞赛的冠军
ImageNet top 5 error: 11.7% -> 6.7%
网络包含22个带参数的层，独立成块的层总共有约有100个；参数量大概是Alexnet的1/12；没有FC层

多卷积核增加特征多样性：
在这里插入图片描述
但是会导致复杂度过高，可以插入1*1卷积核进行降维。

Inception V3 进一步对 Inception V2的参数数量进行降低，用小的卷积核替代大的卷积核。

优点：

降低参数量
增加非线性激活函数：增加非线性激活函数使网络产生更多独立特(disentangled feature),表征能力更强，训练更快。

GoogleNet
在这里插入图片描述

Stem部分（stem network）：卷积 – 池化 – 卷积 – 卷积 – 池化
多个Inception结构堆叠
没有额外的全连接层（除了最后的类别输出层）
辅助分类器：解决由于模型深度过深导致的梯度消失的问题。

3.4 ResNet

残差学习网络（deep residual learning network）
2015年ILSVRC竞赛冠军，错误率从6.7% -> 3.57%
深度有152层，除了输出层之外没有其他全连接层。

残差： 去掉相同的主体部分，突出微小的变化。可以用来训练非常深的网络。
在这里插入图片描述

4 代码练习

4.1 CNN对 MNIST 分类

加载数据: PyTorch里包含了 MNIST， CIFAR10 等常用数据集，调用torchvision.datasets 即可把这些数据由远程下载到本地。

root 为数据集下载到本地后的根目录，包括 training.pt 和 test.pt 文件
train，如果设置为True，从training.pt创建数据集，否则从test.pt创建。
download，如果设置为True, 从互联网下载数据并放到root文件夹下
transform, 一种函数或变换，输入PIL图片，返回变换之后的数据。
target_transform 一种函数或变换，输入目标，进行变换。

DataLoader 的常用操作有：batch_size(每个batch的大小), shuffle(是否进行随机打乱顺序), num_workers(加载数据的时候使用几个子进程)

input_size = 28*28     # MNIST上的图像尺寸是 28x28
output_size = 10      # 类别为 0 到 9 的数字，因此为十类

train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=True, download=True, 
        transform=transforms.Compose(
          [transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]
        )
    ),
    batch_size=64, shuffle=True
)

test_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=False, 
        transform=transforms.Compose(
          [transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]
        )
    ),
    batch_size=1000, shuffle=True
)

#显示数据集中的部分图像
plt.figure(figsize=(8, 5))
for i in range(20):
  plt.subplot(4, 5, i+1)
  image, _ = train_loader.dataset.__getitem__(i)
  plt.imshow(image.squeeze().numpy(), 'gray')
  plt.axis('off');

在这里插入图片描述

#创建网络
#定义网络时，需要继承nn.Module，并实现它的forward方法，把网络中具有可学习参数的层放在构造函数init中。
#只要在nn.Module的子类中定义了forward函数，backward函数就会自动被实现(利用autograd)

class FC2Layer(nn.Module):
  def __init__(self, input_size, n_hidden, output_size):
    super(FC2Layer, self).__init__()
    self.input_size = input_size

    self.network = nn.Sequential(
      nn.Linear(input_size ,n_hidden),
      nn.ReLU(), 
      nn.Linear(n_hidden, n_hidden), 
      nn.ReLU(), 
      nn.Linear(n_hidden, output_size), 
      nn.LogSoftmax(dim=1)
    )
  def forward(self, x):
    x = x.view(-1, self.input_size)  #多维的数据展成二维
    return self.network(x)

class CNN(nn.Module):
  def __init__(self, input_size, n_feature, output_size):
    super(CNN, self).__init__()
    
    # 下面是网络结构的一些定义，一般就是卷积和全连接。池化、ReLU一类的不用在这里定义 
    self.n_feature = n_feature
    self.conv1 = nn.Conv2d(in_channels=1, out_channels=n_feature, kernel_size=5)
    self.conv2 = nn.Conv2d(n_feature, n_feature, kernel_size=5)
    self.fc1 = nn.Linear(n_feature*4*4, 50)
    self.fc2 = nn.Linear(50, 10)

  # 下面的 forward 函数按照一定顺序，把上面构建的一些结构组织起来
  def forward(self, x, verbose=False):
    x = self.conv1(x)
    x = F.relu(x)
    x = F.max_pool2d(x, kernel_size=2)
    x = self.conv2(x)
    x = F.relu(x)
    x = F.max_pool2d(x, kernel_size=2)
    x = x.view(-1, self.n_feature*4*4)
    x = self.fc1(x)
    x = F.relu(x)
    x = self.fc2(x)
    x = F.log_softmax(x, dim=1)
    return x

# 训练函数
def train(model):
  model.train()
  # 从train_loader里，64个样本一个batch为单位提取样本进行训练
  for batch_idx, (data, target) in enumerate(train_loader):
    data, target = data.to(device), target.to(device)
    optimizer.zero_grad()
    output = model(data)
    loss = F.nll_loss(output, target)
    loss.backward()
    optimizer.step()

    if batch_idx % 100 == 0:
      print('Train: [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
          batch_idx * len(data), len(train_loader.dataset), 
          100. * batch_idx / len(train_loader), loss.item())
      )

# 测试函数
def test(model):
  model.eval()
  test_loss = 0
  correct = 0
  for data, target in test_loader:
    data, target = data.to(device), target.to(device)
    output = model(data)
    # 计算本次batch的损失，并加到 test_loss 中
    test_loss += F.nll_loss(output, target, reduction='sum').item()
    #最后一层输出10个数，值最大的对应分类结果，把分类结果保存在 pred 里
    pred = output.data.max(1, keepdim=True)[1]
    # 将 pred 与 target 相比，得到正确预测结果的数量，并加到 correct 中
    # view_as 把维度 target 变成和 pred 一样的
    correct += pred.eq(target.data.view_as(pred)).cpu().sum().item()

  test_loss /= len(test_loader.dataset)
  accuracy = 100. * correct / len(test_loader.dataset)
  print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset), accuracy))

#在小型全连接网络上训练
n_hidden = 8

model_fnn = FC2Layer(input_size, n_hidden, output_size)
model_fnn.to(device)
optimizer = optim.SGD(model_fnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_fnn)))

train(model_fnn)
test(model_fnn)

Number of parameters: 6442
Train: [0/60000 (0%)] Loss: 2.335834
Train: [6400/60000 (11%)] Loss: 1.958780
Train: [12800/60000 (21%)] Loss: 1.265659
Train: [19200/60000 (32%)] Loss: 1.040448
Train: [25600/60000 (43%)] Loss: 0.640174
Train: [32000/60000 (53%)] Loss: 0.634530
Train: [38400/60000 (64%)] Loss: 0.577163
Train: [44800/60000 (75%)] Loss: 0.374181
Train: [51200/60000 (85%)] Loss: 0.977896
Train: [57600/60000 (96%)] Loss: 0.304770

Test set: Average loss: 0.4282, Accuracy: 8778/10000 (88%)

#在卷积神经网络上训练
n_features = 6 # number of feature maps

model_cnn = CNN(input_size, n_features, output_size)
model_cnn.to(device)
optimizer = optim.SGD(model_cnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_cnn)))

train(model_cnn)
test(model_cnn)

Number of parameters: 6422
Train: [0/60000 (0%)] Loss: 2.307476
Train: [6400/60000 (11%)] Loss: 1.915347
Train: [12800/60000 (21%)] Loss: 0.891418
Train: [19200/60000 (32%)] Loss: 0.580535
Train: [25600/60000 (43%)] Loss: 0.354961
Train: [32000/60000 (53%)] Loss: 0.463352
Train: [38400/60000 (64%)] Loss: 0.304758
Train: [44800/60000 (75%)] Loss: 0.135093
Train: [51200/60000 (85%)] Loss: 0.204932
Train: [57600/60000 (96%)] Loss: 0.147063

Test set: Average loss: 0.2107, Accuracy: 9375/10000 (94%)

通过上面的测试结果，可以发现，含有相同参数的 CNN 效果要明显优于简单的全连接网络，是因为 CNN 能够更好的挖掘图像中的信息，主要通过两个手段：

卷积：Locality and stationarity in images
池化：Builds in some translation invariance

#打乱像素顺序再次在两个网络上训练与测试
#考虑到CNN在卷积与池化上的优良特性，如果我们把图像中的像素打乱顺序，这样卷积和池化就难以发挥作用了，为了验证这个想法，我们把图像中的像素打乱顺序再试试。

#随机打乱像素顺序
perm = torch.randperm(784)
plt.figure(figsize=(8, 4))
for i in range(10):
    image, _ = train_loader.dataset.__getitem__(i)
    # permute pixels
    image_perm = image.view(-1, 28*28).clone()
    image_perm = image_perm[:, perm]
    image_perm = image_perm.view(-1, 1, 28, 28)
    plt.subplot(4, 5, i + 1)
    plt.imshow(image.squeeze().numpy(), 'gray')
    plt.axis('off')
    plt.subplot(4, 5, i + 11)
    plt.imshow(image_perm.squeeze().numpy(), 'gray')
    plt.axis('off')

在这里插入图片描述

# 对每个 batch 里的数据，打乱像素顺序的函数
def perm_pixel(data, perm):
    # 转化为二维矩阵
    data_new = data.view(-1, 28*28)
    # 打乱像素顺序
    data_new = data_new[:, perm]
    # 恢复为原来4维的 tensor
    data_new = data_new.view(-1, 1, 28, 28)
    return data_new

# 训练函数
def train_perm(model, perm):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        # 像素打乱顺序
        data = perm_pixel(data, perm)

        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % 100 == 0:
            print('Train: [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))

# 测试函数
def test_perm(model, perm):
    model.eval()
    test_loss = 0
    correct = 0
    for data, target in test_loader:
        data, target = data.to(device), target.to(device)

        # 像素打乱顺序
        data = perm_pixel(data, perm)

        output = model(data)
        test_loss += F.nll_loss(output, target, reduction='sum').item()
        pred = output.data.max(1, keepdim=True)[1]                                            
        correct += pred.eq(target.data.view_as(pred)).cpu().sum().item()

    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        accuracy))

#在全连接网络上训练与测试
perm = torch.randperm(784)
n_hidden = 8 # number of hidden units

model_fnn = FC2Layer(input_size, n_hidden, output_size)
model_fnn.to(device)
optimizer = optim.SGD(model_fnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_fnn)))

train_perm(model_fnn, perm)
test_perm(model_fnn, perm)

Number of parameters: 6442
Train: [0/60000 (0%)] Loss: 2.322486
Train: [6400/60000 (11%)] Loss: 1.869724
Train: [12800/60000 (21%)] Loss: 1.188228
Train: [19200/60000 (32%)] Loss: 0.897968
Train: [25600/60000 (43%)] Loss: 0.820452
Train: [32000/60000 (53%)] Loss: 0.846537
Train: [38400/60000 (64%)] Loss: 0.772324
Train: [44800/60000 (75%)] Loss: 0.519597
Train: [51200/60000 (85%)] Loss: 0.504936
Train: [57600/60000 (96%)] Loss: 0.516461

Test set: Average loss: 0.4748, Accuracy: 8553/10000 (86%)

#在卷积神经网络上训练与测试
perm = torch.randperm(784)
n_features = 6 # number of feature maps

model_cnn = CNN(input_size, n_features, output_size)
model_cnn.to(device)
optimizer = optim.SGD(model_cnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_cnn)))

train_perm(model_cnn, perm)
test_perm(model_cnn, perm)

Number of parameters: 6422
Train: [0/60000 (0%)] Loss: 2.333514
Train: [6400/60000 (11%)] Loss: 2.296374
Train: [12800/60000 (21%)] Loss: 2.173971
Train: [19200/60000 (32%)] Loss: 1.680004
Train: [25600/60000 (43%)] Loss: 1.109356
Train: [32000/60000 (53%)] Loss: 0.834177
Train: [38400/60000 (64%)] Loss: 0.748536
Train: [44800/60000 (75%)] Loss: 0.792379
Train: [51200/60000 (85%)] Loss: 0.854299
Train: [57600/60000 (96%)] Loss: 0.589285

Test set: Average loss: 0.5845, Accuracy: 8157/10000 (82%)

从打乱像素顺序的实验结果来看，全连接网络的性能基本上没有发生变化，但是卷积神经网络的性能明显下降。这是因为对于卷积神经网络，会利用像素的局部关系，但是打乱顺序以后，这些像素间的关系将无法得到利用。

4.2 CNN 对 CIFAR10 分类

下面将使用CIFAR10数据集，它包含十个类别：‘airplane’, ‘automobile’, ‘bird’, ‘cat’,‘deer’, ‘dog’, ‘frog’, ‘horse’, ‘ship’, ‘truck’。CIFAR-10中的图像尺寸为3x32x32，也就是RGB的3层颜色通道，每层通道内的尺寸为32*32。cifar
包含10个类的60000张32x32的彩色图像，每个类有6000张图像．有50000张训
练图像和10000张测试图像

加载并归一化 CIFAR10 使用 torchvision 。torchvision 数据集的输出是范围在[0,1]之间的
PILImage，我们将他们转换成归一化范围为[-1,1]之间的张量 Tensors。
input[channel] = (input[channel] - mean[channel]) / std[channel]

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True, 
                    download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, 
                      shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False,
                    download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=8,
                    shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

#展示 CIFAR10 里面的一些图片
def imshow(img):
  plt.figure(figsize=(8,8))
  img = img / 2 + 0.5     # 转换到 [0,1] 之间
  npimg = img.numpy()
  plt.imshow(np.transpose(npimg, (1, 2, 0)))
  plt.show()

# 得到一组图像
images, labels = iter(trainloader).next()
# 展示图像
imshow(torchvision.utils.make_grid(images))
# 展示第一行图像的标签
for j in range(8):
  print(classes[labels[j]])

在这里插入图片描述
truck
cat
ship
plane
deer
frog
bird
plane

#定义网络，损失函数和优化器
class Net(nn.Module):
  def __init__(self):
    super(Net, self).__init__()
    self.conv1 = nn.Conv2d(3, 6, 5)
    self.pool = nn.MaxPool2d(2, 2)
    self.conv2 = nn.Conv2d(6, 16, 5)
    self.fc1 = nn.Linear(16 * 5 * 5, 120)
    self.fc2 = nn.Linear(120, 84)
    self.fc3 = nn.Linear(84, 10)
  
  def forward(self, x):
    x = self.pool(F.relu(self.conv1(x)))
    x = self.pool(F.relu(self.conv2(x)))
    x = x.view(-1, 16 * 5 * 5)
    x = F.relu(self.fc1(x))
    x = F.relu(self.fc2(x))
    x = self.fc3(x)
    return x

net = Net().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)

#训练网络
for epoch in range(10): 
  for i, (inputs, labels) in enumerate(trainloader):
    inputs = inputs.to(device)
    labels = labels.to(device)
    optimizer.zero_grad()
    outputs = net(inputs)
    loss = criterion(outputs, labels)
    loss.backward()
    optimizer.step()
    # 输出统计信息
    if i % 100 == 0:   
      print('Epoch: %d Minibatch: %5d loss: %.3f' %(epoch + 1, i + 1, loss.item()))

print('Finished Training')

#从测试集中取出8张图片
images, labels = iter(testloader).next()  # 得到一组图像
imshow(torchvision.utils.make_grid(images))  # 展示图像
# 展示图像的标签
for j in range(8):
    print(classes[labels[j]])

在这里插入图片描述
cat
ship
ship
plane
frog
frog
car
frog

#看看网络在整个数据集上的表现

correct = 0
total = 0

for data in testloader:
  images, labels = data
  images, labels = images.to(device), labels.to(device)
  outputs = net(images)
  _, predicted = torch.max(outputs.data, 1)
  total += labels.size(0)
  correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' 
      % (100 * correct / total))

Accuracy of the network on the 10000 test images: 61 %

4.3 VGG16 对 CIFAR10 分类

在这里插入图片描述

#定义 dataloader
#这里的 transform，dataloader 和之前定义的有所不同

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))])

transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,  download=True, transform=transform_train)
testset  = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)

trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2)
testloader = torch.utils.data.DataLoader(testset, batch_size=128, shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

#VGG 网络定义

class VGG(nn.Module):
  def __init__(self):
    super(VGG, self).__init__()
    self.cfg = [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M']
    self.features = self._make_layers(cfg)
    self.classifier = nn.Linear(512, 10)

  def forward(self, x):
    out = self.features(x)
    out = out.view(out.size(0), -1)
    out = self.classifier(out)
    return out

  def _make_layers(self, cfg):
    layers = []
    in_channels = 3
    for x in cfg:
      if x == 'M':
        layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
      else:
        layers += [nn.Conv2d(in_channels, x, kernel_size=3, padding=1), 
              nn.BatchNorm2d(x), nn.ReLU(inplace=True)]
        in_channels = x
    layers += [nn.AvgPool2d(kernel_size=1, stride=1)]
    return nn.Sequential(*layers)

net = VGG().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)

#网络训练
for epoch in range(10): 
  for i, (inputs, labels) in enumerate(trainloader):
    inputs = inputs.to(device)
    labels = labels.to(device)
    optimizer.zero_grad()
    # 正向传播 +　反向传播 + 优化 
    outputs = net(inputs)
    loss = criterion(outputs, labels)
    loss.backward()
    optimizer.step()
    
    if i % 100 == 0:   
      print('Epoch: %d Minibatch: %5d loss: %.3f' %(epoch + 1, i + 1, loss.item()))

print('Finished Training')

#测试验证准确率

correct = 0
total = 0

for data in testloader:
    images, labels = data
    images, labels = images.to(device), labels.to(device)
    outputs = net(images)
    _, predicted = torch.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %.2f %%' 
      % (100 * correct / total))

Accuracy of the network on the 10000 test images: 84.25 %
可以看到，使用一个简化版的 VGG 网络，就能够显著提升准确率。尝试不同的激活函数，加入dropout等，可以进一步提高。

5 思考的问题

1、dataloader 里面 shuffle 取不同值有什么区别？
shuffle 可以将数据随机打乱。设置为True每次加载的数据都是随机的，设置为False按顺序加载的数据。

2、transform 里，取了不同值，这个有什么区别？

1 裁剪-Crop
中心裁剪：transforms.CenterCrop
随机裁剪：transforms.RandomCrop
随机长宽比裁剪：transforms.RandomResizedCrop
上下左右中心裁剪：transforms.FiveCrop
上下左右中心裁剪后翻转，transforms.TenCrop
2 翻转和旋转——Flip and Rotation
依概率p水平翻转：transforms.RandomHorizontalFlip(p=0.5)
依概率p垂直翻转：transforms.RandomVerticalFlip(p=0.5)
随机旋转：transforms.RandomRotation
3 图像变换
resize：transforms.Resize
标准化：transforms.Normalize 转为tensor，并归一化：transforms.ToTensor
填充：transforms.Pad 修改亮度、
对比度和饱和度：transforms.ColorJitter
转灰度图：transforms.Grayscale
线性变换：transforms.LinearTransformation()
仿射变换：transforms.RandomAffine
依概率p转为灰度图：transforms.RandomGrayscale
将数据转换为PILImage：transforms.ToPILImage
4 数据增强
transforms.RandomChoice，从给定的一系列transforms中选一个进行操作
transforms.RandomApply，给一个transform加上概率，依概率进行操作
transforms.RandomOrder，将transforms中的操作随机打乱

3、epoch 和 batch 的区别？
Epoch：
一个Epoch就是使用训练集中的全部样本训练一次，Epoch的值就是整个训练数据集被反复使用几次，它定义了学习算法在整个训练集中的工作次数。一个Epoch意味着训练数据集中的每个样本都有机会更新内部模型参数。Epoch由一个或多个Batch组成。
Batch：
每次迭代时使用的一批样本就叫做一个Batch，样本的数量称为Batch Size，用于定义在更新内部模型参数之前要处理的样本数，每一次参数的更新的Loss Function并不是由一个样本得到的，而是由一个Batch的数据加权得到。

4、1x1的卷积和 FC 有什么区别？主要起什么作用？
FC不是全卷积，而Conv 1x1是全卷积。
1x1卷积核的作用：

实现信息的跨通道整合和交互
具有降维和升维的能力，减少网络参数，而不改变图片的宽和高。
可以实现feature map在通道个数上的变化，提升网络的表达能力

5、residual leanring 为什么能够提升准确率？

如果已经学习到较饱和的准确率（或者当发现下层的误差变大时），那么接下来的学习目标就转变为恒等映射的学习，也就是使输入x近似于输出H(x)，以保持在后面的层次中不会造成精度下降。
通过“shortcut connections（捷径连接）”的方式，直接把输入x传到输出作为初始结果，输出结果为H(x)=F(x)+x，当F(x)=0时，那么H(x)=x，也就是上面所提到的恒等映射。也就是所谓的残差F(x) := H(x)-x，因此，后面的训练目标就是要将残差结果逼近于0，使到随着网络加深，准确率不下降。
使某一层的输出可以直接跨过几层作为后面某一层的输入，其意义在于为叠加多层网络而使得整个学习模型的错误率不降反升

6、代码练习二里，网络和1989年 Lecun 提出的 LeNet 有什么区别？
LeNet网络：
在这里插入图片描述
代码练习二网络使用的ReLU激活函数，LeNet使用的是sigmoid激活函数。
代码二中的池化层是最大池化，LeNet的池化层中有可训练参数。
LeNet输出层使用Softmax函数做多分类，代码二中没有。