任务:
图像分类是对输入图像的操作,最终输出一组最好地描述了图像内容的分类(如猫、狗等)或分类的概率。
输入: 图像的像素矩阵
输出: 图像属于分类 i 的概率
过程:
输入——卷积层——非线性层——池化层——完全连接层——输出
卷积层:
第一层上的过滤器在输入图像上进行卷积运算和「激活」。
过滤器从左上角开始,在图像上滑动并计算出一个数字,得到一个数组,即激活映射或者特征映射。
每个过滤器可以被看成是特征标识符(identifiers)。输出的激活映射,高数值意味着很有可能是输入内容中的曲线激活了过滤器。
过滤器越多,激活映射的深度越大,我们对输入内容的了解也就越多。
一个典型的 CNN 结构看起来是这样的:
输入→卷积→ReLU→卷积→ReLU→池化→ReLU→卷积→ReLU→池化→全连接
Relu:线性整流函数。
上一层卷积层的输出作为下一层卷积层的输入,每往下一层,就会得到更加高级的特征的激活映射。
完全连接层:
完全连接层观察上一层(该输入可能是卷积层、ReLU 层或是池化层的输出)的输出(其表示了更高级特征的激活映射),
并观察高级