神经网络与深度学习-第四周学习总结4.2

最新推荐文章于 2024-07-20 23:54:27 发布

Eratis

最新推荐文章于 2024-07-20 23:54:27 发布

阅读量45

点赞数

文章标签：深度学习神经网络学习

本文链接：https://blog.csdn.net/qq_46029203/article/details/129882931

版权

网络结构：
在这里插入图片描述
网络说明：

网络结构：
在这里插入图片描述
网络说明：

非残差网络的缺陷：
在这里插入图片描述
残差网络的优势：

普通网络的基准模型受VGG网络的启发
卷积层主要有3×3的过滤器，并遵循两个简单的设计规则:①对输出特征图的尺寸相同的各层，都有相同数量的过滤器; ②如果特征图的大小减半，那么过滤器的数量就增加一倍，以保证每一层的时间复杂度相同。
ResNet模型比VGG网络更少的过滤器和更低的复杂性。ResNet具有34层的权重层，有36亿FLOPs，只是VGG-19（19.6亿FLOPs）的18%。

在这里插入图片描述

MNIST：MNIST 数据集主要由一些手写数字的图片和相应的标签组成，图片一共有 10 类，分别对应从 0~9
Fashion-MNIST：

FashionMNIST 是一个替代 MNIST 手写数字集的图像数据集。它是由 Zalando旗下的研究部门提供，涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。
FashionMNIST 的大小、格式和训练集/测试集划分与原始的MNIST 完全一致。60000/10000 的训练测试数据划分，28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能，且不需要改动任何的代码。

CIFAR 10：

PASCAL VOC：

MS COCO：

PASCAL的全称是Microsoft Common Objects in Context，起源
于微软于2014年出资标注的Microsoft COCO数据集
数据集以scene understanding为目标，主要从复杂的日常场景中
截取
包含目标分类(识别)、检测、分割、语义标注等数据集
ImageNet竞赛停办后，COCO竞赛就成为是当前目标识别、检
测等领域的一个最权威、最重要的标杆

ImageNet数据集与ILSVRC：

6. 深度学习视觉应用

定义：
目标检测是在给定的图片中精确找到物体所在位置，并标注出物体的类别。
物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图
片的任何地方，并且物体还可以是多个类别。

数据集输出表达：
在这里插入图片描述

YOLO家族发展：
在这里插入图片描述
YOLO V7性能：

原理示意：
在这里插入图片描述
问题：

滑动次数太多，计算太慢。假设图片为𝑤宽，ℎ高，识别一幅图片需要𝑇时间，则需要：𝑤 ∗ ℎ ∗ 𝑇的总时间。例如：图片大小448 × 448,识别一个目标需要0.05s，则：总时间= 448 ∗ 448 ∗ 0.05 ≈ 10000𝑠,约3小时！
目标大小不同，每一个滑动位置需要用很多框图片宽度和高度都不相同，比例也不相同，因此需要取很多框。例如：标准框10050大小，取5050，5025，20050，200*100等不同大小，在面积和宽高比变化，假设面积变化3类(0.5,1,2), 宽高比3类(0.5,1,2)，则共有9种。总时间是原来的9倍：总时间= 10000 × 9 = 90000𝑠,约1天3小时！

改进：