神经网络与深度学习——课程学习总结——Week3

最新推荐文章于 2024-08-30 08:38:15 发布

m0_66603327

最新推荐文章于 2024-08-30 08:38:15 发布

阅读量571

点赞数 15

文章标签：学习

本文链接：https://blog.csdn.net/m0_66603327/article/details/138072235

版权

本文介绍了常用的数据集，如MNIST、Fashion-MNIST、CIFAR-10、PASCALVOC、MSCOCO和ImageNet，以及深度学习中的关键概念，如目标检测算法YOLO和语义分割。详细解释了算法评估指标，包括精确率、召回率和平均精度。

摘要由CSDN通过智能技术生成

1 常用数据集

1.1 MNIST

MNIST数据集是由0〜9手写数字图片和数字标签所组成的，由60000个训练样本和10000个测试样本组成，每个样本都是一张28 * 28像素的灰度手写数字图片。

原始的MNIST 数据库一共包含下面4 个文件

1.2 Fashion-MNIST数据集

FashionMNIST 是一个替代 MNIST 手写数字集的图像数据集。它是由Zalando旗下的研究部门提供，涵盖了来自10种类别的共7万个不同商品的正面图片。FashionMNIST 的大小、格式和训练集/测试集划分与原始的 MNIST 完全一致。60000/10000 的训练测试数据划分，28x28 的灰度图片。可以直接用它来测试机器学习和深度学习算法性能，且不需要改动任何的代码。

以下是数据集中的类，以及来自每个类的10个随机图像：

1.3 CIFAR-10数据集

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有10000 个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。

以下是数据集中的类，以及来自每个类的10个随机图像：

1.4 PASCAL VOC数据集

PASCAL的全称是Pattern Analysis, Statistical Modelling and Computational Learning

VOC的全称是Visual Object Classes

目标分类(识别)、检测、分割最常用的数据集之一

第一届PASCAL VOC举办于2005年，2012年终止。常用的是 PASCAL 2012

20类图像实例：

1.5 MS COCO数据集

PASCAL的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集

数据集以scene understanding为目标，主要从复杂的日常场景中截取

包含目标分类(识别)、检测、分割、语义标注等数据集

官网：http://cocodataset.org

1.6 ImageNet数据集与ILSVRC

始于2009年，李飞飞与Google的合作： “ImageNet: A Large-Scale Hierarchical Image Database” 总图像数据：14,197,122

总类别数：21841

带有标记框的图像数：1,034,908

2 深度学习视觉算法应用

2.1 算法评估

2.2 目标检测与YOLO

目标检测问题

目标检测是在给定的图片中精确找到物体所在位置，并标注出物体的类别。物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，并且物体还可以是多个类别。

目标检测问题发展 ➢ R-CNN ➢ SPP NET ➢ Fast R-CNN ➢ Faster R-CNN ➢ 最终实现YOLO

YOLO: You Only Look Once是一个集大成的方法

YOLO网络结构概略图

YOLO官方的模型结构图

网络结构包含24个卷积层和2个全连接层；其中前20个卷积层用来做预训练，后面4个是随机初始化的卷积层，和2个全连接层。

YOLO网络输入

YOLO v1在PASCAL VOC数据集上进行的训练，因此输入图片为 448 ×448×3。实际中如为其它尺寸，需要resize或切割成要求尺寸。

YOLO模型处理：𝟕×𝟕网格划分

➢ 将图片分割为 𝑆2个grid(𝑆=7)，每个grid cell的大小都是相等的

➢ 每个格子都可以检测是否包含目标

➢ YOLO v1中，每个格子只能检测一种物体（但可以不同大小）。

YOLO网络输出

➢ 输出是一个7×7×30的张量。对应 7×7个cell

➢ 每个cell对应2个包围框(bounding box, bb)，预测不同大小和宽高比，对应检测不同目标。每个bb有5个分量，分别是物体的中心位置(𝑥,𝑦)和它的高 (ℎ) 和宽(𝑤)，以及这次预测的置信度。

2.3 语义分割

语义分割问题：找到同一画面中的不同类型目标区域

语义分割问题与其他问题的区别

实例分割：同一类型目标要分出来具体实例（谁是谁）

目标检测：标出来外包围矩形

语义分割目标

对图中每一个像素进行分类，得到对应标签

FNC网络结构

网络结构分为两个部分：全卷积部分和反卷积部分。全卷积部分借用了一些经典的CNN网络，并把最后的全连接层换成卷积，用于提取特征，形成热点图；反卷积部分则是将小尺寸的热点图上采样得到原尺寸的语义分割图像。

FNC具体实现

卷积部分

FCN中第6、7、8层都是通过1×1卷积得到的，第6层的输出通道是4096，第 7层的输出通道是4096，第8层的输出是1000（类）,即1000个特征图（称为 heatmap）

反卷积部分：跳级结构

蓝色：卷积层；绿色：Max Pooling层；黄色: 求和运算；灰色: 裁剪

m0_66603327

关注

15
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习——课程学习总结——Week3

其中𝑁代表测试集中所有图片的个数，𝑃(𝑘)表示在能识别出𝑘个图片的时候 Precision的值，而 Δ𝑟(𝑘)则表示识别图片个数从𝑘−1变化到𝑘时（通过调整阈值）Recall值的变化情况。FCN中第6、7、8层都是通过1×1卷积得到的，第6层的输出通道是4096，第 7层的输出通道是4096，第8层的输出是1000（类）,即1000个特征图（称为 heatmap）物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，并且物体还可以是多个类别。R(召回率）： 𝑇𝑃/(𝑇𝑃+𝐹𝑁)。
复制链接

扫一扫