CNN
课程来源:深度学习与计算机视觉
卷积
全连接层的网络输入是一个一维的
而卷积神经网络输入是一个三维的
输入层
对不同的区域提取出不同的特质,也就是每个小区域可以是一群像素点(像眼睛是聚焦一小块地方去识别特征)
这一个区域就是卷积核,得到的绿色矩阵就像一个特征图!
卷积层
7x7x3 的最后一个3 是RGB三通道。
多个Filter(卷积核)获取不同特征。
同一个卷积层的卷积核一定是要相同的
经过几次卷积、
先用六个不同的卷积核得到六个特征图,再用十个不同的卷积核得到十个特征图
卷积核的第三个值(第三维度)一定是和前面输入的第三个值(第三维度)是一样的
滑动窗口步长:移动大小,对结果的影响就是得到的Output Volume
当步长小,慢慢提取特征,当步长大,大刀阔斧粗略提取特征
CV用CNN一般是单步长,但是NLP有可能用大步长
NLP用CNN,可以用(类似网络滑动窗口)进行用卷积(三个词三个词或者五个字五个字提取特征)
卷积核尺寸:上述已讲
边缘填充:因为有些点对最终输出结果贡献多,而越边缘的点对最终输出结果贡献少,所以边缘填充,使得原来的边缘不再是边缘,让边缘也对之后的结果产生更大的影响
卷积核个数:上述已讲
CNN参数相对于全连接层少很多!
池化层
池化层,做压缩,下采样的!
最大池化比平均池化好得多!
全连接层
最后一层FC:最后一个池化层的三维输出拉直成一个特征向量![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
总结
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
经典CNN架构Alexnet
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(
VGG
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
所有卷积核都是3*3的,但是VGG训练时间比Alexnet长很多,以天为单位!
感受野
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
VGG就是全用 3 ∗ 3 3*3 3∗3 的!
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
ResNet
实验中发现一个事儿:当计算机性能越来越高,理论上层数越深,效果越好。但堆叠层数越深,居然会退化!但是深度学习应该是层数越深越好嘛。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
我既要把层数堆叠起来,但是不能让那些影响我模型变差的层数去影响我最终结果。
选拔那些对结果有利影响的层数。同等映射! 中间不好的层数直接跳过。
H ( x ) = F ( x ) + x H(x)=F(x)+x H(x)=F(x)+x 将 x x x 最终也直接拿下来,做一个保底,如果 F ( x ) F(x) F(x) 效果不好,那么Loss函数会将 F ( x ) F(x) F(x) 的影响优化到 0 0 0 直接同等映射!
重新盘活了深度学习!