卷积神经网络

最新推荐文章于 2025-06-13 19:13:03 发布

你若盛开，清风自来！

最新推荐文章于 2025-06-13 19:13:03 发布

阅读量966

点赞数 17

分类专栏：深度学习机器学习文章标签： cnn 深度学习人工智能

本文链接：https://blog.csdn.net/daima3/article/details/135629328

版权

机器学习同时被 2 个专栏收录

13 篇文章

订阅专栏

深度学习

7 篇文章

订阅专栏

滑动窗口步长（stride）：步长较小，提取的粒度更细，得到的特征更加丰富。一般为1。

卷积核尺寸：选择区域的大小，卷积核尺寸越小，粒度越细。一般为3*3。

边缘填充（padding）：越往边界的点，能够计算的次数越少，越接近中间的点，计算次数越多，为了使得边界的点计算次数多，引入padding，弥补边界信息缺失的问题（边界提取特征不充分问题），使得网络能够更加公平的对待边界特征。padding=1，矩阵外围填充一圈0。一般补0，不会对最终结果产生影响。

卷积核个数：得到特征图的数量。

现阶段用的pooling基本都是max pooling，效果比平均池化效果更好。

每一个卷积层后都有一个RELU函数，是一个组合，2次卷积，一次池化，

带参数计算的才能算一层，卷积层要内积加上偏置常数b，带参数。relu层不带参数计算，激活层通通不带参数计算。卷积层和全连接层需要带参数计算，因为全连接层也有权重参数矩阵。

上图是一个7层神经网络。

通过不断卷积池化，卷积池化，最终得到一个特征图，特征图是一个立体的，我们怎么对其进行分类任务呢？怎么把特征图转化为5个概率的特征值呢。卷积池化步骤仅仅只是做特征提取的，当你想得到一个结果，还得靠全连接层。

全连接层的矩阵大小：【10240,5】，把全连接层的10240个特征转化为5个类别的概率值。所以最终在pooling层和FC层之间有一个拉长得到操作，将一个三维的特征图拉长成为一个特征向量。

12年夺冠的网络，问题：11*11的filter，大刀阔斧的提取特征

14年的网络，D版本是主流的版本，VGG所有的卷积大小3*3，VGG网络层数要更优秀一点的，卷积核大小比较小。经过了每个pooling之后，体积变成原来的4分之一，会损失信息，但是在下一次卷积过程中特征图数量翻倍。用特征图的个数去弥补长宽的损失。

我之前做过过一个表情分类的实验，用这个VGG和Alexnet对比，对于同样的一个任务，十分类任务上，VGG的效果基本上要比Alexnet要高15%左右。Alexnet训练8小时，VGG大概要训练3天左右。

为什么VGG要用16层网络？

在深度学习中，深度学习，深度学习，用更深的网络去提取原始数据当中的特征，是这么理解的吧，那应该是层数越多越好吧，是这样的一个事儿吗。之前碰到一个问题，VGG为什么用到16层，为什么不是17,20。因为在实验当中发现一个事儿，这个事儿挺奇怪的，就是16层的网络要比30层网络，继续堆叠就是重复的加这些卷积和池化，16层的时候比30效果好。当时就挺奇怪的，因为深度学习，从本质上理解，应该是越深越好，但是当时好像14年发现一件事，大家认为深度学习是不是到这儿就到此为止了，或者说升到20层就拉到了，这件事儿不能再往下做了。当时大家挺遗憾的，就是深度学习理论情况下，能达到一个更高的一个点，但是实际上没有达到这样一个情况。

解释：因为随着所有卷积层在增加的时候，你不一定所有的卷积层做的效果都好吧，因为它是之前的特征的基础上再去提取特征的，你再继续提取特征，你百分百敢保证就比之前好吗。所以啊，我的层数不能再多了，大概固定到这个局限了。

但是后面15年的时候，有这么个事儿。15年出了一个Resnet，