深度学习新手必看：卷积神经网络与图像分类实战-CSDN博客

本文链接：https://blog.csdn.net/2501_91624122/article/details/148141343

在深度学习领域，卷积神经网络（CNN）是处理图像数据的最强大工具之一。从简单的图像分类到复杂的物体检测和语义分割，CNN都展现出了卓越的性能。对于深度学习新手来说，掌握CNN的基本原理和实现方法是迈向高级应用的重要一步。本文将详细介绍卷积神经网络的基本概念，并通过一个完整的图像分类实战项目，带你从零开始，逐步掌握CNN的核心技能。

一、卷积神经网络（CNN）简介

卷积神经网络是一种深度学习架构，专门用于处理具有网格结构的数据，如图像。CNN通过卷积层、池化层和全连接层的组合，能够自动提取图像的特征，并进行分类或其他任务。

（一）卷积层

卷积层是CNN的核心组件，它通过卷积核（滤波器）在输入图像上滑动，提取局部特征。卷积操作能够捕捉图像中的边缘、纹理等信息。

（二）池化层

池化层用于降低特征图的空间维度，减少计算量，同时保留重要特征。常见的池化操作包括最大池化和平均池化。

（三）全连接层

全连接层将卷积层和池化层提取的特征进行整合，输出最终的分类结果。全连接层的神经元与前一层的所有神经元相连。

二、环境搭建

在开始之前，确保你已经安装了Python和PyTorch。PyTorch是一个流行的深度学习框架，提供了丰富的API来构建和训练CNN模型。

bash

复制

pip install torch torchvision

三、图像分类实战项目

我们将通过一个经典的图像分类项目——CIFAR-10数据集分类，来实践CNN的构建和训练过程。CIFAR-10数据集包含10个类别的60,000张32×32彩色图像，其中50,000张用于训练，10,000张用于测试。

（一）数据加载与预处理

使用PyTorch的torchvision库加载CIFAR-10数据集，并进行必要的预处理。

Python

复制

import torch
import torchvision
import torchvision.transforms as transforms

# 数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),  # 将图像转换为张量
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 归一化
])

# 加载训练集和测试集
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)

# 类别标签
classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

（二）构建CNN模型

定义一个简单的CNN模型，包含两个卷积层、两个池化层和两个全连接层。

Python

复制

import torch.nn as nn
import torch.nn.functional as F

class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)  # 第一个卷积层
        self.pool = nn.MaxPool2d(2, 2)  # 池化层
        self.conv2 = nn.Conv2d(6, 16, 5)  # 第二个卷积层
        self.fc1 = nn.Linear(16 * 5 * 5, 120)  # 第一个全连接层
        self.fc2 = nn.Linear(120, 84)  # 第二个全连接层
        self.fc3 = nn.Linear(84, 10)  # 输出层

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))  # 卷积 + 激活 + 池化
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)  # 展平
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

# 实例化模型
net = SimpleCNN()

（三）训练模型

定义损失函数和优化器，并开始训练模型。

Python

复制

import torch.optim as optim

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

# 训练模型
for epoch in range(10):  # 进行10轮训练
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data

        # 梯度清零
        optimizer.zero_grad()

        # 前向传播 + 反向传播 + 优化
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if i % 2000 == 1999:  # 每2000个批次打印一次
            print(f'[Epoch {epoch + 1}, Batch {i + 1}] loss: {running_loss / 2000:.3f}')
            running_loss = 0.0

print('Finished Training')

（四）评估模型

在测试集上评估模型的性能。

Python

复制

correct = 0
total = 0
with torch.no_grad():  # 关闭梯度计算
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print(f'Accuracy of the network on the 10000 test images: {100 * correct / total:.2f}%')