神经网络与深度学习第三周

一、基本卷积神经网络

1.AlexNet

 网络结构如图所示。该网络在ImageNet上表现出色,AlexNet包含5个卷积层,有些层后面跟了max-pooling层,3个全连接层,为了减少过拟合,在全连接层使用了dropout。

AlexNet使用了很多经典的神经网络方法,这些方法对以后的深度学习影响巨大。

1.1Relu函数

当时主流的的神经元激活函数是tanh()函数,该函数在输入值大的饱和阶段的导数很小,神经网络通过梯度下降法进行误差反向传播,所以该函数很难实现快速的更新权重。而relu函数的导数恒定为1,计算方便,且不会导数变小。加快了神经网络的训练速度。

  

 1.2 局部响应归一化

ReLU函数不像tanh和sigmoid一样有一个有限的值域区间,所以在ReLU之后需要进行归一化处理,LRN的思想来源于神经生物学中一个叫做“侧抑制”的概念,指的是被激活的神经元抑制周围的神经元。

1.3重叠池化就是指相邻池化窗口之间有重叠部分,更确切地说,池化层可以看作是由间隔为 的池化单元的网格组成,每个池化单元总结了以合并单元的位置为中心的大小为 的邻域,即池化单元大小为 ,步长为 ,当 时就是重叠池化,在AlexNet中 ,这样的设定使他们的top-1和top-5错误率分别降低了0.4%和0.3%,但是该方法在之后的研究中没有那么经典。

1.4数据增强

为了减少因为训练数据不足而导致的过拟合问题,使用对图像的数据增强来扩充数据。

1.5 dropout

为了避免神经网络部分神经元失活,在训练时随机弃用几个神经元来解决上个问题。

2.VGG

VGG网络提出了神经网络中层和块的概念,简单来说,在VGG中,使用了3个3x3卷积核来代替7x7卷积核,使用了2个3x3卷积核来代替5*5卷积核,这样做的主要目的是在保证具有相同感知野的条件下,提升了网络的深度,在一定程度上提升了神经网络的效果。 比如,3个步长为1的3x3卷积核的一层层叠加作用可看成一个大小为7的感受野(其实就表示3个3x3连续卷积相当于一个7x7卷积),其参数总量为 3x(9xC^2) ,如果直接使用7x7卷积核,其参数总量为 49xC^2 ,这里 C 指的是输入和输出的通道数。很明显,27xC^2小于49xC^2,即减少了参数;而且3x3卷积核有利于更好地保持图像性质。

VGG实现了日后加深神经网络的方向,为之后出现的深层次神经网络打开了局面

3.ResNet

ResNet是深层神经网络经典的网络结构,其残差的思想在日后发挥着重要的作用,目标检测yolo的DarkNet就借鉴了残差思想。

理论上层次越深的神经网络因其结构的复杂和参数体量的巨大能够实现对复杂问题更有效的解决。但是实验证明,在处理相同问题时,深层次的神经网络的效果却反常的低于较浅层次的神经网络。后研究发现,这是因为深层次的神经网络在训练时存在梯度消失、爆炸、网络退化等问题。除此之外当通过误差梯度反向传播进行了权重学习更新后,会导致数据在下一次正向传播时的输出出现数据分布上的改变,使得后层神经网络基于前层权重修改之前的输出数据分布所学习的本层权重不能适应新的数据分布,之前根据历史数据分布所学习得到的权重信息与之不能匹配。随着层数的加大,这种现象会更加严重。

残差神经网络的结构是由残差块按照一定的规则叠加而成,由于残差块结构解决了梯度消失的影响,残差神经网络能够实现深层次神经网络结构的搭建,通过残差结构目前成功搭建过上千层的神经网络。从传递信息的角度思考,残差神经网络能够做到将上一层的信息直接传递给下一层的网络。神经网络在进行数据的正向传播时,经过了卷积,下采样,激活函数非线性化等处理不可避免的将会损失部分的输入信息,随着网络模型层数的增加,这种信息的损失程度也会加大,但是残差结构通过将上一层的输入直接传递给了下一层,更多的保存了输入数据的信息,这有利于深层次网络模型的搭建。残差块结构如下所示。

 同样残差网络也是有许多的块堆叠而成。下表展示了两种经典的残差网络的结构

 二、数据集与评价指标

数据集:

2.1CIFAR-10

CIFAR-10数据集中包含60000张像素大小32*32的彩色图片,总共包含十个类别如飞机、鸟、马等的图片数据,每类数据6000张,其中每个类别中有5000张作为训练数据集,1000张作为测试数据集。该数据集分类情况和图片实例展示如下图

 2.2MNIST

该数据集是手写字符的数据集,60000个训练样本和10000个测试样本。如下图所示。

上面两种网络均是分类网络的数据集,下面将介绍目标检测和图像分割的数据集。

2.3pascal VOC

PASCAL VOC 数据集的20个类别及其层级结构.

PASCAL VOC挑战在2005年至2012年间展开。 目标检测技术的基准之一。该数据集中有20个分类。该数据集包含11530张用于训练和验证的图像, 其中感兴趣区域有27450个标定。
PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集,从2005年到2012年每年都会举行一场图像识别challenge。该挑战的主要目的是识别真实场景中一些类别的物体。在该挑战中,这是一个监督学习的问题,训练集以带标签的图片的形式给出。
Pascal VOC(2005~2012)竞赛的目标主要是进行图像的目标识别,其提供的数据集包含20类的物体。每张图片都有标注,标注的物体包括人、动物(如猫、狗、岛等)、交通工具(如车、船飞机等)、家具(如椅子、桌子、沙发等)在内的20个类别。每个图像平均有2.4个目标。所有的标注图片都有Detection需要的label, 但只有部分数据有Segmentation Label。

评价指标:

对于分类数据集只要计算分类正确的样本数量站总样本数量的百分数即可

对于目标检测数据集则是通过MAP来进行评价的,目标检测不仅包括分类还包括回归,因此检测正确与否还要有IOU的这个概念。不同的IOU标准得到的MAP评价也不同。

 

TP (True Positive):一个正确的检测,检测的IOU ≥ threshold。即预测的边界框(bounding box)中分类正确且边界框坐标正确的数量。

FP (False Positive):一个错误的检测,检测的IOU < threshold。即预测的边界框中分类错误或者边界框坐标不达标的数量,即预测出的所有边界框中除去预测正确的边界框,剩下的边界框的数量。

FN (False Negative):一个没有被检测出来的ground truth。所有没有预测到的边界框的数量,即正确的边界框(ground truth)中除去被预测正确的边界框,剩下的边界框的数量。

Precision (准确率 / 精确率):「Precision is the ability of a model to identify only the relevant objects」,准确率是模型只找到相关目标的能力,等于TP/(TP+FP)。即模型给出的所有预测结果中命中真实目标的比例。

Recall (召回率):「Recall is the ability of a model to find all the relevant cases (all ground truth bounding boxes)」,召回率是模型找到所有相关目标的能力,等于TP/(TP+FN)。即模型给出的预测结果最多能覆盖多少真实目标。

因此目标检测模型必须综合考虑正确率和召回率两个指标。因此map就是通过对P-R曲线的面积进行的评价算法。

 三、目标检测与YOLO

目标检测是计算机视觉的经典任务,早期目标检测以二阶段的Faster Rcnn主导,因其准确率高,使得目标检测达到了应用的水平。但是二阶段模型推理慢。后来YOLO势力兴起,其作为单阶段目标检测模型不仅检测速度快,准确率也十分高,而且每年都有新的 方法提出,目前已经出yolov7。

yolo将一幅图像分成SxS个网格(grid cell),如果某个object的中心 落在这个网格中,则这个网格就负责预测这个object。

 

(1) 给个一个输入图像,首先将图像划分成7*7的网格

(2) 对于每个网格,我们都预测2个边框(包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率)

(3) 根据上一步可以预测出7*7*2个目标窗口,然后根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值