【图像分类、对象识别】前置知识

啥都会一点

已于 2022-08-10 13:02:56 修改

阅读量478

点赞数

分类专栏：深度学习系列文章标签：分类深度学习计算机视觉

于 2022-08-10 12:48:39 首次发布

本文链接：https://blog.csdn.net/weixin_42075258/article/details/126260388

版权

深度学习系列专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【图像分类、对象识别】前置知识

前置准备：
1. anaconda3     ---虚拟环境隔离
2. Python3.6+
3. pycharm2019+ ----IDE调试工具
#### 选用一个深度学习框架----paddle\pytorch\tensorflow
4. pytorch 1.3.1 +
5. torchvision 0.4.2
6. tensorflow 2.0.0rc1
7. paddlepaddle 2.1.0+

深度学习的发展历程
神经网络思想的提出已经是70多年前的事情了，现今的神经网络和深度学习的设计理论是一步步趋于完善的。在这漫长的发展岁月中，一些取得关键突破的闪光时刻，值得深度学习爱好者们铭记，如图10 所示。

图10：深度学习发展历程

0. 深度学习发展

深度学习发展历程

1. 神经网络

神经元：神经网络中每个节点称为神经元，由两部分组成：
加权和：将所有输入加权求和。
非线性变换（激活函数）：加权和的结果经过一个非线性函数变换，让神经元计算具备非线性的能力。

多层连接：大量这样的节点按照不同的层次排布，形成多层的结构连接起来，即称为神经网络。
前向计算：从输入计算输出的过程，顺序从网络前至后。
计算图：以图形化的方式展现神经网络的计算逻辑又称为计算图，也可以将神经网络的计算图以公式的方式表达

在这里插入图片描述

2. CNN (Convolutional Neural Network)

在这里插入图片描述
简单来说：

分通道读取图像数据灰度值（RGB）
对每个通道使用不同卷积核（Kernel\Filter）、步距（Stride）运算得到中间层intermediate数据
三个通道的中间层数据矩阵相加然后加上偏置项Bias 得到下一层神经元

在这里插入图片描述

卷积计算过程

在这里插入图片描述

多通道卷积结果处理
理解卷积层感受野
CNN 网络处理中往往还包括填充Padding，Pooling池化，升、降低维度。

F（M \* M）
F (N \* N）
M=（N-1)*Stride+KernelSize

M卷积前一层长度
N卷积后一层长度

在这里插入图片描述
CNN网络结构

1.激活函数

CNN网络通常使用激活函数做中间层，激活函数是模型具有非线性表达

1.1 ReLU

The ReLU activation function graphed, which disregards all negative data.

The ReLU activation function graphed, which disregards all negative data.
忽略所有负数，ReLU 激活函数专门用作非线性激活函数，与 Sigmoid 等其他非线性函数相反，因为根据经验观察到使用 ReLU 的 CNN 比其对应物更快地训练。

在这里插入图片描述

1.2 Sigmoid

Sigmoid是早期神经网络模型中常见的非线性变换函数，通过如下代码，绘制出Sigmoid的函数曲线。

def sigmoid(x):
    # 直接返回sigmoid函数
    return 1. / (1. + np.exp(-x))
 
# param:起点，终点，间距
x = np.arange(-8, 8, 0.2)
y = sigmoid(x)
plt.plot(x, y)
plt.show()

在这里插入图片描述

Sigmoid 使用 0、1 很难出。
使用Grid Sensitive 改进可以调整。（ppyolo 、yolov4 中有使用）

1.3 softmax

在这里插入图片描述

The Softmax Interactive Formula View allows a user to interact with both the color encoded logits and formula to understand how the prediction scores after the flatten layer are normalized to yield classification scores.

用来对分类结果的归一化计数Scores，所有结果和为1

2.代码实现

2.1 经典的全连接神经网络

经典的全连接神经网络来包含四层网络：输入层、两个隐含层和输出层，将手写数字识别任务通过全连接神经网络表示，如图所示。
在这里插入图片描述
说明：

隐含层引入非线性激活函数Sigmoid是为了增加神经网络的非线性能力。

举例来说，如果一个神经网络采用线性变换，有四个输入

输入层：将数据输入给神经网络。在该任务中，输入层的尺度为28×28的像素值。
隐含层：增加网络深度和复杂度，隐含层的节点数是可以调整的，节点数越多，神经网络表示能力越强，参数量也会增加。在该任务中，中间的两个隐含层为10×10的结构，通常隐含层会比输入层的尺寸小，以便对关键信息做抽象，激活函数使用常见的Sigmoid函数。
输出层：输出网络计算结果，输出层的节点数是固定的。如果是回归问题，节点数量为需要回归的数字数量。如果是分类问题，则是分类标签的数量。在该任务中，模型的输出是回归一个数字，输出层的尺寸为1。

针对手写数字识别的任务，网络层的设计如下：

输入层的尺度为28×28，但批次计算的时候会统一加1个维度（大小为batch size）。
中间的两个隐含层为10×10的结构，激活函数使用常见的Sigmoid函数。
模型的输出是回归一个数字，输出层的尺寸设置成1。

下述代码为经典全连接神经网络的实现。完成网络结构定义后，即可训练神经网络。

import paddle.nn.functional as F
from paddle.nn import Linear

# 定义多层全连接神经网络
class MNIST(paddle.nn.Layer):
    def __init__(self):
        super(MNIST, self).__init__()
        # 定义两层全连接隐含层，输出维度是10，当前设定隐含节点数为10，可根据任务调整
        self.fc1 = Linear(in_features=784, out_features=10)
        self.fc2 = Linear(in_features=10, out_features=10)
        # 定义一层全连接输出层，输出维度是1
        self.fc3 = Linear(in_features=10, out_features=1)
    
    # 定义网络的前向计算，隐含层激活函数为sigmoid，输出层不使用激活函数
    def forward(self, inputs):
        # inputs = paddle.reshape(inputs, [inputs.shape[0], 784])
        outputs1 = self.fc1(inputs)
        outputs1 = F.sigmoid(outputs1)
        outputs2 = self.fc2(outputs1)
        outputs2 = F.sigmoid(outputs2)
        outputs_final = self.fc3(outputs2)
        return outputs_final

2.2 卷积神经网络

说明
虽然使用经典的全连接神经网络可以提升一定的准确率，但其输入数据的形式导致丢失了图像像素间的空间信息，这影响了网络对图像内容的理解。对于计算机视觉问题，效果最好的模型仍然是卷积神经网络。卷积神经网络针对视觉问题的特点进行了网络结构优化，可以直接处理原始形式的图像数据，保留像素间的空间信息，因此更适合处理视觉问题。

卷积神经网络由多个卷积层和池化层组成，如下图所示。卷积层负责对输入进行扫描以生成更抽象的特征表示，池化层对这些特征表示进行过滤，保留最关键的特征信息。

两层卷积和池化的神经网络实现如下所示

在这里插入图片描述

# 定义 SimpleNet 网络结构
import paddle
from paddle.nn import Conv2D, MaxPool2D, Linear
import paddle.nn.functional as F
# 多层卷积神经网络实现
class MNIST(paddle.nn.Layer):
     def __init__(self):
         super(MNIST, self).__init__()
         
         # 定义卷积层，输出特征通道out_channels设置为20，卷积核的大小kernel_size为5，卷积步长stride=1，padding=2
         self.conv1 = Conv2D(in_channels=1, out_channels=20, kernel_size=5, stride=1, padding=2)
         # 定义池化层，池化核的大小kernel_size为2，池化步长为2
         self.max_pool1 = MaxPool2D(kernel_size=2, stride=2)
         # 定义卷积层，输出特征通道out_channels设置为20，卷积核的大小kernel_size为5，卷积步长stride=1，padding=2
         self.conv2 = Conv2D(in_channels=20, out_channels=20, kernel_size=5, stride=1, padding=2)
         # 定义池化层，池化核的大小kernel_size为2，池化步长为2
         self.max_pool2 = MaxPool2D(kernel_size=2, stride=2)
         # 定义一层全连接层，输出维度是1
         self.fc = Linear(in_features=980, out_features=1)
         
    # 定义网络前向计算过程，卷积后紧接着使用池化层，最后使用全连接层计算最终输出
    # 卷积层激活函数使用Relu，全连接层不使用激活函数
     def forward(self, inputs):
         x = self.conv1(inputs)
         x = F.relu(x)
         x = self.max_pool1(x)
         x = self.conv2(x)
         x = F.relu(x)
         x = self.max_pool2(x)
         x = paddle.reshape(x, [x.shape[0], -1])
         x = self.fc(x)
         return x

使用MNIST数据集训练定义好的卷积神经网络，如下所示。

说明：
以上数据加载函数load_data返回一个数据迭代器train_loader，该train_loader在每次迭代时的数据shape为[batch_size, 784]，因此需要将该数据形式reshape为图像数据形式[batch_size, 1, 28, 28]，其中第二维代表图像的通道数（在MNIST数据集中每张图片的通道数为1，传统RGB图片通道数为3）。

#网络结构部分之后的代码，保持不变
def train(model):
    model.train()
    #调用加载数据的函数，获得MNIST训练数据集
    train_loader = load_data('train')
    # 使用SGD优化器，learning_rate设置为0.01
    opt = paddle.optimizer.SGD(learning_rate=0.01, parameters=model.parameters())
    # 训练5轮
    EPOCH_NUM = 10
    # MNIST图像高和宽
    IMG_ROWS, IMG_COLS = 28, 28

    for epoch_id in range(EPOCH_NUM):
        for batch_id, data in enumerate(train_loader()):
            #准备数据
            images, labels = data
            images = paddle.to_tensor(images)
            labels = paddle.to_tensor(labels)
            
            #前向计算的过程
            predicts = model(images)
            
            #计算损失，取一个批次样本损失的平均值
            loss = F.square_error_cost(predicts, labels)
            avg_loss = paddle.mean(loss)

            #每训练200批次的数据，打印下当前Loss的情况
            if batch_id % 200 == 0:
                print("epoch: {}, batch: {}, loss is: {}".format(epoch_id, batch_id, avg_loss.numpy()))
            
            #后向传播，更新参数的过程
            avg_loss.backward()
            # 最小化loss,更新参数
            opt.step()
            # 清除梯度
            opt.clear_grad()

    #保存模型参数
    paddle.save(model.state_dict(), 'mnist.pdparams')

model = MNIST()
train(model)