【学习笔记】AlexNet 网络结构

跟着大佬学图像分类系列,→ 传送门

本博客图像分类系列文章传送门:


前言

图像分类是学习目标检测的“量变”内容,那么,废话不多说,开搞!


一、AlexNet 是什么?

        AlexNet 是2012年 ISLVRC 2012 竞赛的冠军网络,将分类准确率由传统的 70%+ 提升到了 80%+。是由 Hinton 和他的学生 Alex Krizhevsky 设计完成的网络。

(ISLVRC 是用于图像分类的数据集,属于 ImageNet 的子集,其包含 1,281,167 张训练集;50,000 张验证集合 100,000 张测试集)

二、网络结构

1.网络特点
  • 首次利用了 Gpu 进行网络加速训练
  • 使用了ReLU激活函数,而不是传统的 Sigmoid 激活函数以及 Tanh 函数
    (Sigmoid 这类的激活函数存在求导复杂以及当网络较深时,可能导致梯度消失等问题)
  • 使用了 LRN 局部响应归一化
  • 在全连接层的前两层中使用了 Dropout 随机失活神经元操作,以减少过拟合

    (使用 Dropout,随机失活部分神经元)
2.结构

在这里插入图片描述

AlexNet 网络的结构示意图
(图中可以看出结构分为上下两层,这是由于使用 GPU 进行并行运算,所以在分析时只看一层即可)
numberInput_sizeoutput_sizekernelskernels_sizepaddingstride
Conv1[224, 224, 3][55, 55, 96]48 * 211[1, 2]4
MaxPooling1[55, 55, 96][27, 27, 96]\3\2
Conv2[27, 27, 96][27, 27, 256]128 * 25[2, 2]1
MaxPooling2[27, 27, 256][13, 13, 256]\3\2
Conv3[13, 13, 256][13, 13, 384]192 * 23[1, 1]1
Conv4[13, 13, 384][13, 13, 384]192 * 23[1, 1]1
Conv5[13, 13, 384][13, 13, 256]128 * 23[1, 1]1
MaxPooling3[13, 13, 256][6, 6, 256]\3\2
FC16*6*256 (展平)\\2048\\
FC22048\\2048\\
FC32048\\1000\\
  • Conv1(第一层卷积层)+ MaxPooling1(第一层池化层)

input:一张大小为 224x224 的RGB图片
卷积核大小为 11x11
卷积核的个数为 96 个(一层48,有两层)
步长为4
padding 为 [1, 2]
output:根据公式,输出为 [55, 55, 96] 的特征矩阵,96为这一层卷积核的个数,如果没有用GPU并行跑两层,这里就应该是48(建议去看一下卷积与池化的原理)
(output_size = (input_size - kernel_size + 2*padding)/stride + 1)
(池化层同理)

  • Conv2(第二层卷积层)+ MaxPooling2(第二层池化层)

input:一张大小为 27x27 的RGB图片
卷积核大小为 5x5
卷积核的个数为 384 个(一层192,有两层)
步长为1
padding 为 [2, 2]
output:根据公式,输出为 [27, 27, 256] 的特征矩阵
(output_size = (input_size - kernel_size + 2*padding)/stride + 1)
(池化层同理)

  • Conv3(第三层卷积层)

input:一张大小为 13x13 的RGB图片
卷积核大小为 3x3
卷积核的个数为 384 个(一层192,有两层)
步长为1
padding 为 [1, 1]
output:根据公式,输出为 [13, 13, 384] 的特征矩阵
(output_size = (input_size - kernel_size + 2*padding)/stride + 1)

  • Conv4(第四层卷积层)

input:一张大小为 13x13 的RGB图片
卷积核大小为 3x3
卷积核的个数为 384 个(一层192,有两层)
步长为1
padding 为 [1, 1]
output:根据公式,输出为 [13, 13, 384] 的特征矩阵
(output_size = (input_size - kernel_size + 2*padding)/stride + 1)

  • Conv5(第五层卷积层)+ MaxPooling3(第三层池化层)

input:一张大小为 13x13 的RGB图片
卷积核大小为 3x3
卷积核的个数为 256 个(一层128,有两层)
步长为1
padding 为 [1, 1]
output:根据公式,输出为 [13, 13, 384] 的特征矩阵
(output_size = (input_size - kernel_size + 2*padding)/stride + 1)
(池化层同理)

  • FC1(第一层全连接层)+ FC2(第二层全连接层)+ FC3(第三层全连接层)

input:最后一层卷积层展平后的结果,即 66256
output:2048(全连接层的神经元个数)


三、使用 Pytorch 搭建 AlexNet 网络

本代码使用的数据集来自 “花分类” 数据集,→ 传送门 ←(具体内容看 data_set文件夹下的 README.md)


  • model.py ( 搭建AlexNet网络模型 )
import torch.nn as nn
import torch


class AlexNet(nn.Module):
    # num_classes表示模型可以分类的数量,如花数据集中,1000表示可以训练1000种花来识别(可通过传值来改变num_classes)
    # init_weights为初始化权重
    def __init__(self, num_classes=1000, init_weights=False):
        super(AlexNet, self).__init__()
        '''
         nn.Sequential 可以将模型的各个层打包成一个新的结构,能让模型看起来更清晰
            如果不用 nn.Sequential,要表示各个层就需要 
                self.conv1 = nn.Conv2d( )
                self.pool1 = nn.MaxPool2d( )
                 ......
                self.fc = nn.Linear( )
            看起来会比较累赘
        '''
        # features :5层卷积 + 3层池化
        self.features = nn.Sequential(
            # 3=通道数(深度),48=kernel数量
            nn.Conv2d(3, 48, kernel_size=11, stride=4, padding=nn.ZeroPad2d(1,2,1,2)),
            # inplace 降低内存使用
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(48, 128, kernel_size=5, stride=1, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(128, 192, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(192, 192, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(192, 128, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        # classifier :3层全连接层
        self.classifier = nn.Sequential(
            nn.Dropout(p=0.5),   # 随机失活
            nn.Linear(6 * 6 * 128, 2048),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.5),
            nn.Linear(2048, 2048),
            nn.ReLU(inplace=True),
            nn.Linear(2048, num_classes),
        )
        if init_weights:
            # 如果用户需要初始化权重,调用_initialize_weights()方法
            self._initialize_weights()

    # 前馈
    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, start_dim=1)   # 展平成一维向量
        x = self.classifier(x)
        return x

    # 初始化权重
    def _initialize_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
                if m.bias is not None:
                    nn.init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                nn.init.normal_(m.weight, 0, 0.01)
                nn.init.constant_(m.bias, 0)

  • train.py ( 训练网络 )
import torch
import torch.nn as nn
from torchvision import transforms, datasets, utils

import torch.optim as optim
from model import AlexNet

import os
import json
import time


# 根据电脑配置,判断是否使用 GPU
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

# 数据预处理
data_transforms = {
    "train":transforms.Compose([
        transforms.RandomResizedCrop(224),      # 随机裁剪为 224 * 224 大小
        transforms.RandomHorizontalFlip(),      # 随机翻转
        transforms.ToTensor(),                  # 转换为 tensor 类型
        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 标准化处理
    ]),
    "val":transforms.Compose([
        transforms.Resize((224, 224)),
        transforms.ToTensor(),
        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
    ])
}

image_path = "./data/data_set/flower_data/"          # 获取图像路径
# 训练集路径
train_dataset = datasets.ImageFolder(root=image_path + "/train", transform=data_transforms["train"])
train_num = len(train_dataset)

# 数据集各类别的索引     '花名':索引号
flower_list = train_dataset.class_to_idx
cla_dict = dict((val, key) for val, key in flower_list.items())     # 将类别放入字典
json_str = json.dumps(cla_dict, indent=4)       # 将字典转为 json 格式
# 保存 json 文件
with open('class_indices.json', 'w') as json_file:
    json_file.write(json_str)

batch_size = 32
# 加载训练集
train_loader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=batch_size,
    shuffle=True,   # shuffle=True 表示随机去 batch
    num_workers=0   # num_worker设为0,意味着每一轮迭代时,dataLoader 不再自主加载数据到RAM(windows都是设为0)
)

# 验证集(测试)
validate_dataset = datasets.ImageFolder(root = image_path + '/val', transform=data_transforms["val"])
validate_num = len(validate_dataset)
# 加载验证集
validate_loader = torch.utils.data.DataLoader(
    validate_dataset,
    batch_size=batch_size,
    shuffle=False,
    num_workers=0
)

''' 训练模型 '''
net = AlexNet(num_classes=5, init_weights=True)
net.to(device)          # 使用 GPU 或 CPU
loss_funcation = nn.CrossEntropyLoss()  # 损失函数类型
# param = list(net.parameters())         # 查看模型的参数
optimizer = optim.Adam(net.parameters(), lr=0.0002)     # 优化器类型

save_path = './AlexNet.pth'     # 训练好后的模型存放路径
best_acc = 0.0                  # 记录最好的结果

for epoch in range(10):
    '''train'''
    net.train()         # train() 方法会执行 Dropout
    running_loss = 0.0  # 统计训练过程中的平均损失
    start_time = time.perf_counter()    # 记录训练一次 epoch 所需的时间
    for step, data in enumerate(train_loader, start=0):
        images, labels = data   # 得到图像及对应的分类
        optimizer.zero_grad()   # 清空梯度信息
        outputs = net(images.to(device))    # 放入网络正向传播,得到训练结果
        loss = loss_funcation(outputs, labels.to(device))   # 计算损失
        loss.backward()     # 反向传播
        optimizer.step()    # 更新模型参数

        running_loss += loss.item()
        # 打印训练进度
        rate = (step + 1) / len(train_loader)
        a = "*" * int(rate * 50)
        b = "." * int((1 - rate) * 50)
        print("\rtrain loss: {:^3.0f}%[{}->{}]{:.3f}".format(int(rate * 100), a, b, loss), end="")
        print()
    print(time.perf_counter() - start_time)

    '''val'''
    net.eval()  # rain() 方法不会执行 Dropout
    acc = 0.0
    with torch.no_grad():
        for data_test in validate_loader:
            test_images, test_labels = data_test
            outputs = net(test_images.to(device))
            predict_y = torch.max(outputs, dim=1)[1]    # 这种分类其实输出的是一个概率,要将概率转换为最贴近的类别序号
            acc += (predict_y == test_labels.to(device)).sum().item()   # 预测值与实际值相等,acc+1
        accurate_test = acc / validate_num  # 计算正确率
        # 保存最好结果
        if accurate_test > best_acc:
            best_acc = accurate_test
            torch.save(net.state_dict(), save_path)
        print('[epoch %d] train_loss: %.3f test_accuracy: %.3f' % (epoch + 1, running_loss / step, acc / validate_num))

print("Finished !")
  • predict.py ( 使用训练好的模型网络对图像分类 )
import torch
from model import AlexNet
import numpy
from PIL import Image
from torchvision import transforms
import matplotlib.pyplot as plt
import json

data_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

# load image
img = Image.open("./tulip.jpg")
plt.imshow(img)     # show img
img = data_transform(img)
img = torch.unsqueeze(img, dim=0)

try:
    json_file = open('/class_indicts.json', 'r')    # 打开之前保存的“花分类”文件
    class_indicts = json.load(json_file)
except Exception as e:
    print(e)
    exit(-1)

# 初始化网络
model = AlexNet(num_classes=5)
# 加载在 model.py 中训练好的模型
model_weight_path = "./AlexNet.pth"
model.load_state_dict(torch.load(model_weight_path))
model.eval()
with torch.no_grad():
    # 获取 img 的预测结果
    output = torch.squeeze(model(img))
    predict = torch.softmax(output, dim=0)
    predict_class = torch.argmax(predict).numpy()
print(class_indicts[str(predict_class)], predict[predict_class].item())
plt.show()

代码连接 https://github.com/WZMIAOMIAO/deep-learning-for-image-processing

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
你好!关于学习数据结构的C语言笔记,我可以给你一些基本的指导和概念。数据结构是计算机科学中非常重要的一门课程,它涉及存储和组织数据的方法。C语言是一种常用的编程语言,很适合用于实现各种数据结构。 下面是一些数据结构的基本概念,你可以在学习笔记中包含它们: 1. 数组(Array):一种线性数据结构,可以存储相同类型的元素。在C语言中,数组是通过索引访问的。 2. 链表(Linked List):也是一种线性数据结构,但不需要连续的内存空间。链表由节点组成,每个节点包含数据和指向下一个节点的指针。 3. 栈(Stack):一种后进先出(LIFO)的数据结构,类似于装满物品的箱子。在C语言中,可以使用数组或链表来实现栈。 4. 队列(Queue):一种先进先出(FIFO)的数据结构,类似于排队等候的队伍。同样可以使用数组或链表来实现队列。 5. 树(Tree):一种非线性数据结构,由节点和边组成。每个节点可以有多个子节点。二叉树是一种特殊的树结构,每个节点最多有两个子节点。 6. 图(Graph):另一种非线性数据结构,由节点和边组成。图可以用来表示各种实际问题,如社交网络和地图。 这只是数据结构中的一些基本概念,还有其他更高级的数据结构,如堆、哈希表和二叉搜索树等。在学习笔记中,你可以介绍每个数据结构的定义、操作以及适合使用它们的场景。 希望这些信息对你有所帮助!如果你有任何进一步的问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值