特征可视化
目前来说CNN对我们来说都是一个黑箱子,这一节我们深入CNN内部来观察其构成。
第一层卷积层由16个3×7×7的卷积核构成。由于图像是RGB三通道的,所以我们的卷积核也是三通道,于是我们可以将每一个卷积核视作一幅图片,进而了解其想要得到的东西:有向边。
第二层卷积层由20个16×7×7的卷积核构成。虽然这里我们无法用RGB图像来表示,但我们可以尝试用一个有16个灰度级的图像来表示。但这并没有什么意义,因为第二层的输入数据并非人类能够理解的图片,而是一些从原始图片中提取出的特征。所以,我们需要更好的方法来了解第二层的意义。
在最后一层,我们有一个1000类的得分表,来告知我们图片的分类得分。而在前一层,我们用一个4096的向量(根据神经网络类型不同)来表示图片并输入到最后一层。
在最后一层发生了什么呢?
在这里插入图片描述
前面我们提到了像素空间的最近邻法,如上图左边所示,检测待训练图片的对应位置像素与已知种类的像素的差,并计算损失,损失低于阈值的就归于一类。CNN的最后一层也做的是类似的事,