第5周学习：ShuffleNet & EfficientNet & 迁移学习

最新推荐文章于 2024-06-03 16:03:09 发布

海绵干儿

最新推荐文章于 2024-06-03 16:03:09 发布

阅读量277

点赞数

文章标签：学习迁移学习人工智能

本文链接：https://blog.csdn.net/chemingmei/article/details/126278478

版权

Part1 视频学习

ShuffleNet V1 & V2

EfficientNet网络：

Transformer里的 multi-head self-attention

Part1 视频学习

ShuffleNet V1 & V2

V1中提出了channel shuffle：组卷积虽然能够减少参数与计算量，但单纯的堆叠会导致不同组之间信息没有交流。Channel shuffle 提出了经过一次组卷积（i个组）后，将每个组内部各自分为i组，每个组的第j小组放在一起，形成新的i个组，从而实现组与组之间的信息交流

V1中用到的block

V1网络结构（多数用到g=3）stage代表着将步距为stride的repeat个block相堆叠，在bottleneck中前两层通道数为输出特征矩阵通道数的1/4。（由于图像输入时通道数比较小，所以在stage2的第一个步距为2的block中，第一层没有使用组卷积，用的是1*1的普通卷积）

bottleneck：

计算量对比（input size=c*h*w；bottleneck channel m）理论上最小

V2：由于计算复杂度不能只看FLOPs，提出了4条设计高效网络准则，由此提出了新的block设计
MAC：内存访问时间成本；并行等级：并行度越高越快；平台：gpu/arm cpu 都会影响最终模型的执行时间
准则1：当卷积层的输入特征矩阵与输出特征矩阵的channel相等时MAC最小（保持FLOPs不变）

准则2：当组卷积的组数量增大时（保持FLOPs不变），MAC也会增大

准则3：网络设计的碎片化（分支个数）程度越高，速度越慢（分支多的时候，快的需要等着慢的，都结束了才能进行下一步）

准则4：element wise操作带来的影响是不可忽视的
总结：使用平衡的卷积，输入输出channel比值尽可能=1；不能一味的增大group数；降低网络的碎片程度；尽可能减少使用element wise操作
V2中用到的block：对步长为1的情况，channel split会将输入的channel划分为c'和c-c'一部分为捷径分支，另一部分为主分支；为了减少碎片化程度左分支不做处理；为了减少groups所有组卷积还原为1*1卷积；通过concat拼接使输入输出特征矩阵相同；ab为V1，cd为V2

V2网络：添加了一个conv5

EfficientNet网络：

（https://blog.csdn.net/qq_37541097/article/details/114434046）

这篇论文主要是用NAS（Neural Architecture Search）技术来搜索网络的图像输入分辨率r rr，网络的深度d e p t h depthdepth以及channel的宽度width三个参数的合理化配置。

增加网络的深度depth能够得到更加丰富、复杂的特征并且能够很好的应用到其它任务中。但网络的深度过深会面临梯度消失，训练困难的问题。
增加网络的width能够获得更高细粒度的特征并且也更容易训练，但对于width很大而深度较浅的网络往往很难学习到更深层次的特征。
增加输入网络的图像分辨率能够潜在得获得更高细粒度的特征模板，但对于非常高的输入分辨率，准确率的增益也会减小。并且大分辨率图像会增加计算量。
同时增加三者，会得到更好的效果
EfficientNe-B0

MBConv：

如图所示，MBConv结构主要由一个1x1的普通卷积（升维作用，包含BN和Swish），一个kxk的Depthwise Conv卷积（包含BN和Swish）k的具体值可看EfficientNet-B0的网络框架主要有3x3和5x5两种情况，一个SE模块，一个1x1的普通卷积（降维作用，包含BN），一个Droupout层构成。搭建过程中还需要注意几点：

第一个升维的1x1卷积层，它的卷积核个数是输入特征矩阵channel的n倍，n ∈ { 1 , 6 }
当n = 1时，不要第一个升维的1x1卷积层，即Stage2中的MBConv结构都没有第一个升维的1x1卷积层
关于shortcut连接，仅当输入MBConv结构的特征矩阵与输出的特征矩阵shape相同时才存在

SE模块如下所示，由一个全局平均池化，两个全连接层组成。第一个全连接层的节点个数是输入该MBConv特征矩阵channels的1/4且使用Swish激活函数。第二个全连接层的节点个数等于Depthwise Conv层输出的特征矩阵channels，且使用Sigmoid激活函数。

Dropout层的dropout_rate在tensorflow的keras源码中对应的是drop_connect_rate后面会细讲（注意，在源码实现中只有使用shortcut的时候才有Dropout层）。

B0-B7参数设置：

Transformer里的 multi-head self-attention

（https://blog.csdn.net/qq_37541097/article/details/117691873）

最初针对自然语言处理提出，理论上记忆长度可以无限长，可以做并行化
假设输入的序列长度为2，输入就两个节点x 1 , x 2 然后通过Input Embedding也就是图中的f ( x )将输入映射到a 1 , a 2 。紧接着分别将a 1 , a 2 分别通过三个变换矩阵W q , W k , W v （这三个参数是可训练的，是共享的）得到对应的q i , k i , v i （这里为了方便理解，忽略偏执）。

其中

q 代表query，后续会去和每一个k kk进行匹配

k 代表key，后续会被每个q qq匹配

v 代表从a 中提取得到的信息

后续q 和k 匹配的过程可以理解成计算两者的相关性，相关性越大对应v 的权重也就越大

由于它可以并行化，所以qi，ki，vi合并成Q，K，V，进行如下计算：

得到αij

将αij进行加权，得到bi：

所以，self-attention总结为

Multi-Head Attention
首先还是和Self-Attention模块一样将a i 分别通过W q , W k , W v 得到对应的q i , k i , v i ，然后再根据使用的head的数目h 进一步把得到的q i , k i , v i 均分成h份。比如下图中假设h = 2然后q 1拆分成q 1 , 1 和q 1 , 2 那么q 1 , 1 就属于head1，q 1 , 2 属于head2。

接着将每个head得到的结果进行concat拼接

接着将拼接后的结果通过W0（可学习的参数）进行融合，如下图所示，融合后得到最终的结果b 1 , b 2

总结:

Part2 代码阅读

ShuffleNet V2网络

EfficientNet 网络

使用vgg进行猫狗大战

数据处理

import numpy as np
import matplotlib.pyplot as plt
import os
import torch
import torch.nn as nn
import torchvision
from torchvision import models,transforms,datasets
import time
import json


# 判断是否存在GPU设备
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print('Using gpu: %s ' % torch.cuda.is_available())
! wget http://fenggao-image.stor.sinaapp.com/dogscats.zip
! unzip dogscats.zip
normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])

vgg_format = transforms.Compose([
                transforms.CenterCrop(224),
                transforms.ToTensor(),
                normalize,
            ])

data_dir = './dogscats'

dsets = {x: datasets.ImageFolder(os.path.join(data_dir, x), vgg_format)
         for x in ['train', 'valid']}

dset_sizes = {x: len(dsets[x]) for x in ['train', 'valid']}
dset_classes = dsets['train'].classes
# 通过下面代码可以查看 dsets 的一些属性

print(dsets['train'].classes)
print(dsets['train'].class_to_idx)
print(dsets['train'].imgs[:5])
print('dset_sizes: ', dset_sizes)
loader_train = torch.utils.data.DataLoader(dsets['train'], batch_size=64, shuffle=True, num_workers=6)
loader_valid = torch.utils.data.DataLoader(dsets['valid'], batch_size=5, shuffle=False, num_workers=6)


'''
valid 数据一共有2000张图，每个batch是5张，因此，下面进行遍历一共会输出到 400
同时，把第一个 batch 保存到 inputs_try, labels_try，分别查看
'''
count = 1
for data in loader_valid:
    print(count, end='\n')
    if count == 1:
        inputs_try,labels_try = data
    count +=1

print(labels_try)
print(inputs_try.shape)
# 显示图片的小程序

def imshow(inp, title=None):
#   Imshow for Tensor.
    inp = inp.numpy().transpose((1, 2, 0))
    mean = np.array([0.485, 0.456, 0.406])
    std = np.array([0.229, 0.224, 0.225])
    inp = np.clip(std * inp + mean, 0,1)
    plt.imshow(inp)
    if title is not None:
        plt.title(title)
    plt.pause(0.001)  # pause a bit so that plots are updated
# 显示 labels_try 的5张图片，即valid里第一个batch的5张图片
out = torchvision.utils.make_grid(inputs_try)
imshow(out, title=[dset_classes[x] for x in labels_try])

创建 VGG Model

!wget https://s3.amazonaws.com/deep-learning-models/image-models/imagenet_class_index.json
model_vgg = models.vgg16(pretrained=True)

with open('./imagenet_class_index.json') as f:
    class_dict = json.load(f)
dic_imagenet = [class_dict[str(i)][1] for i in range(len(class_dict))]

inputs_try , labels_try = inputs_try.to(device), labels_try.to(device)
model_vgg = model_vgg.to(device)

outputs_try = model_vgg(inputs_try)

print(outputs_try)
print(outputs_try.shape)

'''
可以看到结果为5行，1000列的数据，每一列代表对每一种目标识别的结果。
但是我也可以观察到，结果非常奇葩，有负数，有正数，
为了将VGG网络输出的结果转化为对每一类的预测概率，我们把结果输入到 Softmax 函数
'''
m_softm = nn.Softmax(dim=1)
probs = m_softm(outputs_try)
vals_try,pred_try = torch.max(probs,dim=1)

print( 'prob sum: ', torch.sum(probs,1))
print( 'vals_try: ', vals_try)
print( 'pred_try: ', pred_try)

print([dic_imagenet[i] for i in pred_try.data])
imshow(torchvision.utils.make_grid(inputs_try.data.cpu()), 
       title=[dset_classes[x] for x in labels_try.data.cpu()])

修改最后一层，冻结前面层的参数

VGG 模型如下图所示，注意该网络由三种元素组成：

卷积层（CONV）是发现图像中局部的 pattern
全连接层（FC）是在全局上建立特征的关联
池化（Pool）是给图像降维以提高特征的 invariance


print(model_vgg)

model_vgg_new = model_vgg;

for param in model_vgg_new.parameters():
    param.requires_grad = False
model_vgg_new.classifier._modules['6'] = nn.Linear(4096, 2)
model_vgg_new.classifier._modules['7'] = torch.nn.LogSoftmax(dim = 1)

model_vgg_new = model_vgg_new.to(device)

print(model_vgg_new.classifier)

训练并测试全连接层

包括三个步骤：第1步，创建损失函数和优化器；第2步，训练模型；第3步，测试模型。


'''
第一步：创建损失函数和优化器

损失函数 NLLLoss() 的 输入 是一个对数概率向量和一个目标标签. 
它不会为我们计算对数概率，适合最后一层是log_softmax()的网络. 
'''
criterion = nn.NLLLoss()

# 学习率
lr = 0.001

# 随机梯度下降
optimizer_vgg = torch.optim.SGD(model_vgg_new.classifier[6].parameters(),lr = lr)

'''
第二步：训练模型
'''

def train_model(model,dataloader,size,epochs=1,optimizer=None):
    model.train()
    
    for epoch in range(epochs):
        running_loss = 0.0
        running_corrects = 0
        count = 0
        for inputs,classes in dataloader:
            inputs = inputs.to(device)
            classes = classes.to(device)
            outputs = model(inputs)
            loss = criterion(outputs,classes)           
            optimizer = optimizer
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            _,preds = torch.max(outputs.data,1)
            # statistics
            running_loss += loss.data.item()
            running_corrects += torch.sum(preds == classes.data)
            count += len(inputs)
            print('Training: No. ', count, ' process ... total: ', size)
        epoch_loss = running_loss / size
        epoch_acc = running_corrects.data.item() / size
        print('Loss: {:.4f} Acc: {:.4f}'.format(
                     epoch_loss, epoch_acc))
        
        
# 模型训练
train_model(model_vgg_new,loader_train,size=dset_sizes['train'], epochs=1, 
            optimizer=optimizer_vgg)
def test_model(model,dataloader,size):
    model.eval()
    predictions = np.zeros(size)
    all_classes = np.zeros(size)
    all_proba = np.zeros((size,2))
    i = 0
    running_loss = 0.0
    running_corrects = 0
    for inputs,classes in dataloader:
        inputs = inputs.to(device)
        classes = classes.to(device)
        outputs = model(inputs)
        loss = criterion(outputs,classes)           
        _,preds = torch.max(outputs.data,1)
        # statistics
        running_loss += loss.data.item()
        running_corrects += torch.sum(preds == classes.data)
        predictions[i:i+len(classes)] = preds.to('cpu').numpy()
        all_classes[i:i+len(classes)] = classes.to('cpu').numpy()
        all_proba[i:i+len(classes),:] = outputs.data.to('cpu').numpy()
        i += len(classes)
        print('Testing: No. ', i, ' process ... total: ', size)        
    epoch_loss = running_loss / size
    epoch_acc = running_corrects.data.item() / size
    print('Loss: {:.4f} Acc: {:.4f}'.format(
                     epoch_loss, epoch_acc))
    return predictions, all_proba, all_classes
  
predictions, all_proba, all_classes = test_model(model_vgg_new,loader_valid,size=dset_sizes['valid'])

可视化模型预测结果（主观分析）

主观分析就是把预测的结果和相对应的测试图像输出出来看看，一般有四种方式：

随机查看一些预测正确的图片
随机查看一些预测错误的图片
预测正确，同时具有较大的probability的图片
预测错误，同时具有较大的probability的图片
最不确定的图片，比如说预测概率接近0.5的图片

# 单次可视化显示的图片个数
n_view = 8
correct = np.where(predictions==all_classes)[0]
from numpy.random import random, permutation
idx = permutation(correct)[:n_view]
print('random correct idx: ', idx)
loader_correct = torch.utils.data.DataLoader([dsets['valid'][x] for x in idx],
                  batch_size = n_view,shuffle=True)
for data in loader_correct:
    inputs_cor,labels_cor = data
# Make a grid from batch
out = torchvision.utils.make_grid(inputs_cor)
imshow(out, title=[l.item() for l in labels_cor])

# 类似的思路，可以显示错误分类的图片，这里不再重复代码