1.基本卷积神经网络
1.1网络结构AlexNet
网络说明:网络一共有8层可学习层—5层卷积层和3层全连接层,且随网络深入,宽、高衰减,通道数增加。
下图:左侧为连接数,右侧为参数。
1.2改进方法
改进输入样本:
从原始图像(256,256)中,随机的crop出 一些图像(224,224)【平移变换,crop 】
水平翻转图像。【反射变换,flip】
给图像增加一些随机的光照。【光照、彩 色变换,color jittering】
改进激活函数:
采用ReLU替代 Tan Sigmoid;
用于卷积层与全连接层之后。
改进Dropout:
在每个全连接层后面使用一个 Dropout 层,以概率 p 随机关闭激活函数。
改进双GPU策略:
AlexNet使用两块GTX580显卡进行训练,两块显卡只需要在特定的层进行通信。
详细解释:以第一层conv1为例
relu1:max(0,𝑥),作为激活函数紧 接在卷积层后面
norm1:局部响应归一化LRN LRN层作用不大,在CNN中并不常用
pool1:采用max pooling,pooling核大小为3×3,stride为2,即pooling核的步长是2, 即2倍降采样,此处的pool1层是有交叠的池化层,即 pooling核在相邻位置有重叠。
1.3网络结构VGG-16
网络说明:
改进:网络规模进一步增大,参数数量约为1.38亿 ,由于各卷积层、池化层的超参数基本相同,整体结构呈现出规整的特点。
普遍规律:随网络深入,高和宽衰减,通道数增多。
2.常用数据集
2.1 MNIST
MNIST数据集主要由一些手写数字的图片和相应的标签组成,图片一共有 10 类,分别对应从 0~9;由60000个训练样本和10000个测试样 本组成,每个样本都是一张28 * 28像素的灰度手写数字图片。
2.2 CIFAR 10数据集
CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每类有6000个图像。有50000个训练图像和10000个测试图像。
数据集分为五个训练批次和一个测试批次,每个批次有10000 个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。
以下是数据集中的类,以及来自每个类的10个随机图像:
2.3 MS COCO数据集
PASCAL的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集。
数据集以scene understanding为目标,主要从复杂的日常场景中截取。
包含目标分类(识别)、检测、分割、语义标注等数据集.
ImageNet竞赛停办后,COCO竞赛就成为是当前目标识别、检测等领域的一个最权威、最重要的标杆。
MS COCO数据集示例: