李沐《动手学深度学习》学习笔记(三)

六、基本卷积神经网络

        1.AlexNet

        共8层可学习层——5层卷积层和3层全连接层

改进:

        池化层均采用最大池化;

        选用ReLU作为非线性环节激活函数

        网络规模扩大,参数数量接近6000万

        出现“多个卷积层+一个池化层”的结构

        2.VGG-16

改进:

        网络规模进一步增大,参数数量约为1.38亿

        由于各卷积层、池化层的超参数基本相同,整体结构呈现出规整的特点 

        3.残差网络

解决的问题:梯度消失

        卷积层主要有3×3的过滤器,并遵循两个简单的设计规则:①对输出特征图的尺寸相同的各层,都有相同数量的过滤器; ②如果特征图的大小减半,那么过滤器的数量就增加一 倍,以保证每一层的时间复杂度相同。

七、常用数据集

1.MNIST:由0〜9手写数字图片和数字标签所组成的,由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片。

2.Fashion-MNIST:涵盖了来自10种类别的共7万个不同商品的正面图片,60000/10000 的训练测试数据划分,28x28 的灰度图片。

3.CIFAR-10:由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。

4.PASCAL VOC:共4个大类,20个小类;最常用的是PASCAL 2012,

5.MS COCO:提供的标注类别有80类,有超过33万张图片,其中20万张有标注,整个数据集中个体的数目超过150万个。

6.ImageNet:总图像数据:14,197,122;总类别数:21841;带有标记框的图像数:1,034,908

八、目标检测与Yolo网络

目标检测问题:目标检测是在给定的图片中精确找到物体所在位置,并标注出物体的类别。

何为Yolo?——You Only Look Once

Yolo有何优点?——一个字:快!

Yolo模型结构图:

网络结构包含24个卷积层和2个全连接层;其中前20个卷积层用来做预训练,后面4个是随机初始化的卷积层,和2个全连接层。

输入:输入图片为 448 × 448 × 3。实际中如为其它尺寸,需要resize或切割成要求尺寸

输出:输出是一个7 × 7 × 30的张量。对应 7 × 7个cell

包围框:我们有 𝑠 2个框,每个框的bb个数为𝐵,分类器可以识别出𝐶种不同的物体, 那么所有整个ground truth的长度为𝑆 × 𝑆 × (𝐵 × 5 + 𝐶)。YOLO v2和以后版本使用了自聚类的anchor box为bb, v2版本为𝐵 = 5, v3中 𝐵 =9

置信度:置信度计算公式:𝐶 = Pr (𝑜𝑏𝑗) ∗ 𝐼𝑂𝑈𝑡𝑟𝑢𝑡ℎ 𝑝𝑟𝑒�,IOU是预测的bb和真实的物体位置的交并比。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值