1.基本卷积神经网路
1.1 Alexnet
网络结构:
1、首先对227 × 227 × 3的原始图像进行卷积,采用96个大小为11 × 11 × 3 的卷积核,步长为4,得到96个大小为55 × 55的特征图。共有( 11 × 11 × 3 + 1 ) × 96个参数。
2、进行最大池化,窗口大小为3 × 3,步长为2,得到96个大小为27 × 27的特征图。
3、采用256个大小为5 × 5 × 96的卷积核对池化后的图片进行卷积,且填充为2,步长为1,得到256个大小为27 × 27的特征图。共有( 5 × 5 × 96 + 1 ) × 256 个参数。
4、进行最大池化,窗口大小为3 × 3,步长为2,得到256个大小为13 × 13的特征图。
5、接着对池化后的图像进行连续三次的卷积,第一个卷积采用384个大小为3 × 3 × 256的卷积核,第二个卷积采用384个大小为3 × 3 × 384 的卷积核,第三个卷积采用256个大小为3 × 3 × 384 的卷积核,步长与填充均为1,最终得到256个大小为13 × 13的特征图。共有( 3 × 3 × 256 + 1 ) × 384 + ( 3 × 3 × 384 + 1 ) × 384 + ( 3 × 3 × 384 + 1 ) × 256个参数。
6、进行最大池化,窗口大小为3 × 3,步长为2,得到256个大小为6 × 6的特征图。
7、采用了4096个6 × 6 × 256 的卷积核对池化后的图像进行卷积,因此得到特征图大小为1 × 1 × 4096 ,构成了与前一层的全连接,具有4096个神经元输出(需进行Dropout)。共有( 6 × 6 × 256 + 1 ) × 4096 个连接数。
8、为具有4096个神经元输出的全连接层。共有( 4096 + 1 ) × 4096 个参数。
9、为具有1000个神经元输出的全连接层。共有( 4096 + 1 ) × 1000 个参数。
网络改进:
1)改进输入样本
最简单、通用的图像数据变形的方式。
从原始图像(256,256)中,随机的crop出 一些图像(224,224)。【平移变换,crop 】
水平翻转图像。【反射变换,flip】
给图像增加一些随机的光照。【光照、彩 色变换,color jittering】
(2)改进激活函数
采用ReLU替代Tan Sigmoid;用于卷积层和全连接层之后。
(3)添加Dropout
在每个全连接层后面使