深度学习课堂总结——2023,04,03

1 AlexNet

AlexNet网络结构相对简单,使用了8层卷积卷积神经网络,前5层是卷积层,剩下的3层是全连接层,具体如下所示。

我利用AlexNet调用GPU对FashionMinist数据集进行分类,得到的训练结果如下:

2.VGG-16

VGG16是一个由16层组成的深度卷积神经网络,其中包含13个卷积层和3个全连接层。网络的第一层采用64个卷积核进行两次卷积操作,接着进行一次池化操作。第二层采用128个卷积核进行两次卷积操作,再进行一次池化操作。后续的两个块重复了三次卷积操作,每次使用512个卷积核,然后进行一次池化操作。最后,网络通过三个全连接层来完成特征提取任务。网络的所有卷积层均采用相同的卷积核参数,以保持与前一层相同的宽和高。池化层均采用2x2大小的池化核和步长为2的max池化方式,使得每个池化层输出的尺寸为前一层的1/2。此外,为了减少参数数量和计算复杂度,网络采用多个小尺寸卷积核代替一个大尺寸卷积核。例如,两个3x3的卷积核的感受野与一个5x5的卷积核相当。这种策略不仅可以提高网络的深度和性能,还可以加速训练过程。通过在图像识别任务中进行训练,VGG16已经取得了良好的性能。

 

 3 ResNet

残差网络与之前的网络最大的不同在于其增加了一条identity捷径分支。由于该分支的存在,网络在反向传播时,可以通过该路径将损失直接传递到更前的网络,从而减缓网络退化的问题。在第二节分析网络退化的原因时,我们发现梯度之间存在相关性。在考虑梯度相关性这一指标后,我们分析了一系列结构和激活函数,并发现残差网络在保持梯度相关性方面表现出色。从梯度流的角度来看,残差网络中的一部分梯度保持原样向后传递,这部分梯度的相关性非常强。此外,残差网络并未引入额外的参数,只是增加了一个简单的加法操作。在GPU的加速下,这一点额外的计算量可以忽略不计。

4 数据集和评价指标

4.1 算法评估及其相关指标

TP:被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数
FP:被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数
FN:被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数
TN:被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数

精确率P(Precision):TP/(TP+FP)

召回率R(Recall):TP/(TP+FN)。召回率越高,准确率越低。

4.2 AP计算

mAP:均值平均准确率。

AP=\sum_{k=1}^{N} P(k) \Delta r(k)

 

其中𝑁代表测试集中所有图片的个数 𝑃(𝑘)表示在能识别出 𝑘个图片的时候Precision 的值,而 Δ𝑟(𝑘)则表示识别图片个数从 𝑘−1变化到 𝑘时(通过调整阈值)Recall 值的变化情况 。

5 目标检测与YOLO

5.1 目标检测问题描述

目标检测是在给定的图片中精确找到物体所在位置,并标注出物体的类别。这实际上是一个分类和回归问题。问题:物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,并且物体还可以是多个类别。

数据集输出的形式,一般是一个张量,包含:有无目标,方框中心坐标,方框的高和宽,对应于每种类别的概率。YOLO突出的优点:快。目标检测方法主要包括:二步法和一步法,现在通常采用一步法。 

 5.2 目标检测基本思想

目标检测是计算机视觉领域的一个重要研究方向。传统的目标检测方法采用滑动窗口策略进行目标识别,但是这种方法存在着计算复杂度高和检测精度低的问题。为了解决这些问题,研究者们提出了一系列改进方案。

其中,两步法(Region Proposal)被广泛应用于目标检测任务中。该方法通过预测图像中目标出现的概率,并对具有高概率的区域进行进一步的分类和定位,以实现目标检测。然而,由于该方法需要对图像中的所有区域进行计算,计算复杂度较高,导致其在实际应用中难以满足实时性要求。

为了进一步提高检测速度和精度,研究者们提出了一步法(You Only Look Once,简称YOLO)的目标检测方法。该方法利用卷积神经网络直接对整个图像进行预测,同时实现了目标的分类和定位,具有较高的检测速度和精度。许多现有的目标检测系统都采用了YOLO方法。

此外,在二步法中,滑动窗口之间存在大量重叠,导致计算冗余和检测速度缓慢。因此,研究者们提出了一种不重叠窗口策略,将图像划分成不相交的区域,以减少冗余计算和提高检测速度。

5.3 YOLO网络结构

 

下面给出一个基本的网络结构如下:

 

这是一个基本的YOLO网络结构,网络结构包含24个卷积层和2个全连接层;其中前 20 个卷积层用来做预训练,后面 4 个是随机初始化的卷积层,和 2 个全连接层。YOLO网络需要对于输入的图片进行预处理,比如:YOLO v1输入图片要求为448*448*3,需要把图片改成这样的大小。图片为正方形才能正确缩放,可以对于图片加黑边,变成正方形在进行缩放。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值