卷积神经网络（CNN）学习笔记 ——李宏毅_李宏毅机器学习卷积神经网络cnn笔记-CSDN博客

本文链接：https://blog.csdn.net/qq_43206449/article/details/127663945

卷积神经网：与影像有关

Image Classification（目标是分类）

输入: 图片（如果图片的大小不一致，先将所有图片rescale成大小一致的）

输出：各种类别

$\widehat{y}$ 是我们设置的分类目标改向量的长度就是可以辨识多少种类别

图片通过model后通过softmax输出y' 我们希望y' 与 $\widehat{y}$ 之间的 cross entropy（交叉熵）越小越好

如何把一张图片当作一个模型的输入呢？

对于电脑来说一张图片是一个三维的tensor （即维度大于二的矩阵）

这三维分别是图片的长、宽和channel的个数

一张彩色的图片是由RGB三种颜色组成

三个channel就分别代表R、G、B三种颜色

长、宽表示图片的解析度图片总共有多少个像素点

将三维的图片拉直成一个巨大的向量（就可以作为一个输入）

向量中每一个数值代表的是某种颜色在该像素点的颜色强度

把代表图片的向量作为输入

如果是全连接的网络

输入总共有100*100*3个

假设有1000个neuron 每一个输入对每个neuron都会产生一个weight

那么就会有3* $10^{7}$ 个weight

随着参数的增加 模型的弹性和能力可以增加 但是同时会增加过拟合的风险

为了减少参数我们可以不使用全连接网络根据观察图像的特性设计其他的网络结构

一张小鸟的图片通过模型如何得出它是一只鸟？如果辨识到某些重要的特征就可以得出它是一只鸟

比如某一个neuron 看到的是鸟嘴有一个neuron看到了眼睛另一个neuron看到了鸟爪当这些重要的特征组合在一起我们就可以判断是一只鸟

判断的时候要抓某些重要的特征因此我们并不需要每一个neuron 都去观察一整张图片

即不需要把整张图片当作一个neuron的输入只需要将图片的一部分当作neuron的输入即可这样我们就可以做简化

在CNN中是这样做的

为每一个neuron 设定receptive field （感受野） 每个neuron 只用负责receptive field 的部分

比如对于这个蓝色的neuron 只需要将这27个数值作为输入产生27个weight 加上一个bias 得到的输出作为下一层的neuron的输入

Receptive field的范围是自己定义的 ，每个neuron的Receptive field 是可以重叠的

并且不同的neuron可以负责相同的Receptive field

Receptive field 的大小也可以根据自己的需求定义，并且每个neuron的Receptive field

也可以是有大有小的

经典的Receptive field的安排方式

（1）默认所有的channel

（2）因此在表示大小时，只需要表示长和宽的范围，这个范围叫做kernel size，一般kernel size 不会很大，常用3*3

（3）同一个Receptive field一般有很多neuron负责

（4）设置stride 相当于步长（一般设置为1或2），使得receptive field 相互重叠。

（5）当范围超出了图像的边界，要设置padding，可以补0，把超出的范围的值设为零。

也可以补上均值。

对于不同的图片来说，某些重要的特征出现的位置是不一样的

例如两个图片的鸟嘴的位置一个在图片的正上方，一个在图片的中间，对于这两个不同的区域都有一组neuron 负责，每一组neuron中都有一个neuron是辨识鸟嘴的功能。那么对于不同的receptive field 辨识鸟嘴的neuron的功能是一样的，因此我们需要每个区域都弄一个辨识鸟嘴的neuron吗？