六、基本卷积神经网络
1.AlexNet
共8层可学习层——5层卷积层和3层全连接层
改进:
池化层均采用最大池化;
选用ReLU作为非线性环节激活函数
网络规模扩大,参数数量接近6000万
出现“多个卷积层+一个池化层”的结构
2.VGG-16
改进:
网络规模进一步增大,参数数量约为1.38亿
由于各卷积层、池化层的超参数基本相同,整体结构呈现出规整的特点
3.残差网络
解决的问题:梯度消失
卷积层主要有3×3的过滤器,并遵循两个简单的设计规则:①对输出特征图的尺寸相同的各层,都有相同数量的过滤器; ②如果特征图的大小减半,那么过滤器的数量就增加一 倍,以保证每一层的时间复杂度相同。
七、常用数据集
1.MNIST:由0〜9手写数字图片和数字标签所组成的,由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片。
2.Fashion-MNIST:涵盖了来自10种类别的共7万个不同商品的正面图片,60000/10000 的训练测试数据划分,28x28 的灰度图片。
3.CIFAR-10:由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。
4.PASCAL VOC:共4个大类,20个小类;最常用的是PASCAL 2012,
5.MS COCO:提供的标注类别有80类,有超过33万张图片,其中20万张有标注,整个数据集中个体的数目超过150万个。
6.ImageNet:总图像数据:14,197,122;总类别数:21841;带有标记框的图像数:1,034,908
八、目标检测与Yolo网络
目标检测问题:目标检测是在给定的图片中精确找到物体所在位置,并标注出物体的类别。
何为Yolo?——You Only Look Once
Yolo有何优点?——一个字:快!
Yolo模型结构图:
网络结构包含24个卷积层和2个全连接层;其中前20个卷积层用来做预训练,后面4个是随机初始化的卷积层,和2个全连接层。
输入:输入图片为 448 × 448 × 3。实际中如为其它尺寸,需要resize或切割成要求尺寸
输出:输出是一个7 × 7 × 30的张量。对应 7 × 7个cell
包围框:我们有 𝑠 2个框,每个框的bb个数为𝐵,分类器可以识别出𝐶种不同的物体, 那么所有整个ground truth的长度为𝑆 × 𝑆 × (𝐵 × 5 + 𝐶)。YOLO v2和以后版本使用了自聚类的anchor box为bb, v2版本为𝐵 = 5, v3中 𝐵 =9
置信度:置信度计算公式:𝐶 = Pr (𝑜𝑏𝑗) ∗ 𝐼𝑂𝑈𝑡𝑟𝑢𝑡ℎ 𝑝𝑟𝑒�,IOU是预测的bb和真实的物体位置的交并比。