导读
图片的表示
输入一张灰度图(一个通道)
用一个矩阵表示,矩阵的每个元素代表每个位置的像素值,大小为0~255
(经常归一化为0~1)
输入一张彩色图,有RGB三个通道,每张表存储相应的分量
常用的表示形式
全连接层的缺点
以28×28的手写字符为例,输入时处理为784×1的向量,假设中间节点为256个,输出为10个节点(一共10类)
参数量为784×256 +256×256+256×256+256×10=390K
参数量大!!!
卷积的产生
1.感受野
借助于生物学的知识
例如图片中的小孩,在一个场景中首先注意到的是蛋糕,他不是一次性把场景中的所有信息全部关注到,而是局部地接受信息。
2.卷积神经网络
以滑动窗口的形式进行特征提取,利用局部相关性(不再需要全连接)
以手写字符识别网络为例,假设卷积核大小为3×3,第一层卷积层的参数为9×256(卷积核权重共享)
全连接层与卷积层对比
参数量变化784×256 → 9×256
卷积利用的是局部相关性
卷积操作
1.什么是卷积
(1)连续信号中的卷积操作
(2)图像中的卷积操作
2.不同的卷积核提取不同的特征图
(1)使边缘更锐利
(2)图像模糊
(3)边缘检测
3.卷积提取特征的可视化结果
(1)一个卷积核的情况(得到一个feature map)
(2)多个卷积核的情况
比如有用于sharpen的,用于blur的,用于edge的(有多少个卷积核就得到多少个特征图)
卷积操作过程的可视化
4.几个专用语的解释
(1)输入通道数:输入图片的通道数,灰度图就一个通道,彩色图有三个通道;
(2)卷积核通道数:跟输入图片的通道数对应,中间层卷积核通道数与特征图通 道数对应;
(3)卷积核大小:常用的有1×1(有特殊的用处),3×3(常用的size),5×5,7×7;
(4)步长:1,2等(有降维的作用)
(5)padding:补零(可以保持输出size跟输入一致)等
5.举个栗子消化一下
(1)假设输入是b张彩色图像,每张图像有三个通道,尺寸是28×28;
(2)那么第一个卷积核的通道数是3(与输入图像的通道数一致),尺寸可以自行设置(例如设置为3×3);注意:图片里的one k 28是错的!!!
(3)multi-k(中间层的卷积核),根据上一层输出的特征图数量来决定卷积核的通道数(可以理解为卷积核的种类数),这里假设为16;其中的3也叫做通道数(要跟前面的16区分),是指每种卷积核对应的3个通道;
(4)偏置的个数跟卷积核通道数(种类数,16)一致;
这里给出了每层卷积层提取的特征图示例
(低层卷积层一般提取的是一些简单的特征)
卷积神经网络的其他操作
1.采样
分为上下采样
最近邻,双线性,双三次插值等
下图给出的是按尺度因子取样的示例
2.池化
最大池化(如图),平均池化(对应区域取平均值)
3.激活函数
例如ReLu激活函数(小于0的值输出为0,大于0的值线性输出)
图中那些黑色的区域(相当于像素值为 0),经过ReLu之后黑色部分就去掉了
关于激活函数的更多讲解参考如下
参考一
参考二
最后再把这个经典的网络结构分析分析。