神经网络与深度学习 学习笔记(三)

本文介绍了卷积神经网络的基础,包括AlexNet、VGG和残差网络(ResNet),探讨了它们的结构特点和对深度学习的影响。此外,提到了几个常用的数据集如MNIST、Fashion-MNIST、CIFAR-10和目标检测中的评价指标,以及目标检测的基本思想和YOLO算法的应用。
摘要由CSDN通过智能技术生成

本周主要学习以下内容:

1.基本卷积神经网络

①AlexNet

上周已进行简单介绍。即以“一个或多个卷积层 一个池化层“作为一个基本单元进行堆叠,在网络尾部使用全连接层,最后以 Softmax 为分类器,输出结果。

②VGG

其改进之处在于:网络规模进一步增大,参数数量约为 1.38 亿;由于各卷积层、池化层的超参数基本相同,整体结构呈现出规整的特点。同时,随网络深入,高和宽衰减,通道数增多。VGG-11使⽤可复⽤的卷积块构造⽹络。不同的VGG模型可通过每个块中卷积层数量和输出通道数量的差异来定义。块的使⽤导致⽹络定义的⾮常简洁。使⽤块可以有效地设计复杂的⽹络。

③残差网络

 分析了构建残差网络的必要性。残差映射可以更容易地学习同⼀函数,例如将权重层中的参数近似为零。利⽤残差块(residual blocks)可以训练出⼀个有效的深层神经⽹络:输⼊可以通过层间的残余连接更快地向前传播。残差⽹络(ResNet)对随后的深层神经⽹络设计产⽣了深远影响。ResNet 模型比 VGG 网络更少的过滤器和更低的复杂性。同时。残差网络在普通网络的基础上,将浅层的激活项通过支路直接传向深层,克服深层神经网络中梯度消失的问题,为训练极深的神经网络提供便利。

2.常用数据集

①MNIST

数据集主要由一些手写数字的图片和相应的标签组成,图片一共有 10 类,分别对应从 0~9。手写数字图片和数字标签所组成的,由 60000 个训练样本和 10000 个测试样本组成,每个样本都是一张 28 * 28 像素的灰度手写数字图片。

②Fashion-MNIST 数据集

FashionMNIST 是一个替代 MNIST 手写数字集 的图像数据集 。它是由 Zalando 旗下的研究部门提供 涵盖了来自 10 种类别的共 7 万个不同商品的正面图片 。可以直接用来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码 。

③CIFAR-10 数据集

CIFAR 10 数据集由 10 个类的 60000 个 32x32 彩色图像组成,每个类有 6000 个图像。有 50000 个训练图像和 10000 个测试图像,数据集分为五个训练批次和一个测试批次,每个批次有 10000个图像。测试批次包含来自每个类别的恰好 1000 个随机选择的图像。

④PASCAL VOC数据集

目标分类 识别 、检测、分割最常用的数据集之一,一共分成20类。

⑤MS COCO数据集

数据集以 scene understanding 为目标,主要从复杂的日常场景中截取,包含目标分类 识别 、检测、分割、语义标注等数据集。提供的标注类别有很多。

⑥ImageNet数据集

总类别数和总图像数据均较大。

主要常用数据集还是以voc和coco为主。

3.数据集与评价指标

引入了算法评估相关概念,表示了召回率和准确率之间的关系,即精度准确率越高,召回率越低,并给出了相关示例。根据相关阈值设定对图像进行分类,调整阈值可改变准确率或召回值。介绍了平均准确率(AP)和均值平均准确率(mAP)的相关概念和表达式。

4.目标检测与 YOLO

①描述目标检测问题,将分类问题与目标检测相结合

②介绍目标检测基本思想,根据目标图像首先设计滑动窗口解决方法对目标进行检测,针对滑动窗口法带来的问题,对方法进行改进——一步法,进一步减少出现目标的位置,而且将目标分类检测和定位问题合在一个网络里,将分类问题扩展为回归+分类问题。对每一个划分的图像进行向量化,针对不同分类数进行维数设定,同时针对多框一目标、一框多目标、多类目标和小目标问题进行向量设计。

③YOLO网络结构

 网络结构包含24 个卷积层和 2 个全连接层;其中前 20 个卷积层用来做预训练,后面 4 个是随机初始化的卷积层,和 2 个全连接层。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值