卷积神经网络

最新推荐文章于 2023-01-28 12:29:08 发布

中北编程底线

最新推荐文章于 2023-01-28 12:29:08 发布

阅读量534

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53174708/article/details/119240965

版权

本文深入探讨了卷积神经网络（CNN）的结构与工作原理，包括输入层、卷积层、激活函数（如ReLU）、池化层、全连接层和损失函数的角色。重点阐述了ReLU相对于sigmoid和tanh的优势，以及池化层在特征提取和计算效率上的贡献。此外，还介绍了前向传播和反向传播在模型训练中的作用。

摘要由CSDN通过智能技术生成

卷积神经网络主要是由输入层、卷积层、激活函数、池化层、全连接层、损失函数组成，表面看比较复杂，其实质就是特征提取以及决策推断。

要使特征提取尽量准确，就需要将这些网络层结构进行组合，比如经典的卷积神经网络模型AlexNet:5个卷积层+3个池化层+3个连接层结构。

卷积（convolution）

卷积的作用就是提取特征，因为一次卷积可能提取的特征比较粗糙，所以多次卷积，以及层层纵深卷积，层层提取特征（千万要区别于多次卷积，因为每一层里含有多次卷积）。

这里可能就有小伙伴问：为什么要进行层层纵深卷积，而且还要每层多次？

你可以理解为物质A有自己的多个特征（高、矮、胖、瘦、、、），所以在物质A上需要多次提取，得到不同的特征，然后这些特征组合后发生化学反应生成物质B，

而物质B又有一些新的专属于自己的特征，所以需要进一步卷积。

Relu激活函数

相信看过卷积神经网络结构（CNN）的伙伴们都知道，激活函数无处不在，特别是CNN中，在卷积层后，全连接（FC）后都有激活函数Relu的身影，

那么这就自然不得不让我们产生疑问：

问题1、为什么要用激活函数？它的作用是什么？

问题2、在CNN中为什么要用Relu，相比于sigmoid，tanh，它的优势在什么地方？

对于第1个问题：由 y = w * x + b 可知，如果不用激活函数，每个网络层的输出都是一种线性输出，而我们所处的现实场景，其实更多的是各种非线性的分布。

这也说明了激活函数的作用是将线性分布转化为非线性分布，能更逼近我们的真实场景。

对于第2个问题：先看sigmoid，tanh分布

他们在 x -> 时，输出就变成了恒定值，因为求梯度时需要对函数求一阶偏导数，而不论是sigmoid，还是tanhx，他们的偏导都为0，

也就是存在所谓的梯度消失问题，最终也就会导致权重参数w ， b 无法更新。相比之下，Relu就不存在这样的问题，另外在 x > 0 时，

Relu求导 = 1，这对于反向传播计算dw，db，是能够大大的简化运算的。

使用sigmoid还会存在梯度爆炸的问题，比如在进行前向传播和反向传播迭代次数非常多的情况下，sigmoid因为是指数函数，其结果中

某些值会在迭代中累积，并成指数级增长，最终会出现NaN而导致溢出。

池化

池化层一般在卷积层+ Relu之后，它的作用是：

1、减小输入矩阵的大小（只是宽和高，而不是深度），提取主要特征。（不可否认的是，在池化后，特征会有一定的损失，所以，有些经典模型就去掉了池化这一层）。

它的目的是显而易见的，就是在后续操作时能降低运算。

2、一般采用mean_pooling（均值池化）和max_pooling（最大值池化），对于输入矩阵有translation（平移），rotation（旋转），能够保证特征的不变性。

mean_pooling 就是输入矩阵池化区域求均值，这里要注意的是池化窗口在输入矩阵滑动的步长跟stride有关，一般stride = 2.

最右边7/4 => (1 + 1 + 2 + 3)/4

max_pooling 最大值池化，就是每个池化区域的最大值放在输出对应位置上。

全连接（full connection）

作用：分类器角色，将特征映射到样本标记空间，本质是矩阵变换（affine）。

损失函数（softmax_loss）

作用：计算损失loss，从而求出梯度grad。

常用损失函数有:MSE均方误差，SVM（支持向量机）合页损失函数，Cross Entropy交叉熵损失函数。

这几种损失函数目前还看不出谁优谁劣，估计只有在具体的应用场景中去验证了。至于这几种损失函数的介绍，

大家可以去参考《常用损失函数小结》https://blog.csdn.net/zhangjunp3/article/details/80467350，这个哥们写得比较详细。

在后面的代码实例中，用到的是softmax_loss，它属于Cross Entropy交叉熵损失函数。

softmax计算公式：

、

这个有点折磨人，原理讲解以及推导请大家可以参考这位大神的博客：http://www.cnblogs.com/zongfa/p/8971213.html。

2.6 前向传播（forward propagation）

前向传播包含之前的卷积，Relu激活函数，池化（pool），全连接(fc)，可以说，在损失函数之前操作都属于前向传播。

主要是权重参数w , b 初始化，迭代，以及更新w, b,生成分类器模型。

2.7 反向传播（back propagation）

反向传播包含损失函数，通过梯度计算dw，db，Relu激活函数逆变换，反池化，反全连接。

中北编程底线

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
卷积神经网络

卷积神经网络主要是由输入层、卷积层、激活函数、池化层、全连接层、损失函数组成，表面看比较复杂，其实质就是特征提取以及决策推断。要使特征提取尽量准确，就需要将这些网络层结构进行组合，比如经典的卷积神经网络模型AlexNet:5个卷积层+3个池化层+3个连接层结构。卷积（convolution）卷积的作用就是提取特征，因为一次卷积可能提取的特征比较粗糙，所以多次卷积，以及层层纵深卷积，层层提取特征（千万要区别于多次卷积，因为每一层里含有多次卷积）。这里可能就有小伙伴问：为什么要进行层层纵深卷积，
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。