【AI前沿】深度学习基础：卷积神经网络（CNN）

最新推荐文章于 2024-07-22 13:42:36 发布

屿小夏

最新推荐文章于 2024-07-22 13:42:36 发布

阅读量1k

点赞数 32

分类专栏： AI前沿文章标签：人工智能深度学习 cnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1657054242/article/details/140379437

版权

AI前沿专栏收录该内容

12 篇文章 0 订阅

订阅专栏

文章目录

📑前言
一、卷积神经网络的基本结构
二、卷积层和池化层的作用
- 2.1 卷积层的作用
- 2.2 池化层的作用
三、经典卷积神经网络模型
四、小结

📑前言

卷积神经网络（Convolutional Neural Network, CNN）是深度学习中的重要模型之一，广泛应用于计算机视觉领域，如图像分类、目标检测和图像分割等。本文将详细介绍卷积神经网络的基本结构、卷积层和池化层的作用，以及经典的卷积神经网络模型（LeNet、AlexNet、VGG、ResNet）。

一、卷积神经网络的基本结构

卷积神经网络的基本结构由卷积层（Convolutional Layer）、池化层（Pooling Layer）、全连接层（Fully Connected Layer）以及激活函数（Activation Function）组成。

1.1 卷积层（Convolutional Layer）

卷积层是CNN的核心部分，用于提取图像的局部特征。通过卷积操作，卷积层可以捕捉到图像中的边缘、角点、纹理等低级特征。卷积操作是通过卷积核（也称为滤波器）进行的。卷积核在图像上滑动，并计算卷积核与图像局部区域的点积，生成特征图（Feature Map）。

1.2 池化层（Pooling Layer）

池化层用于降低特征图的维度，同时保留重要信息，减少计算复杂度和防止过拟合。常见的池化操作有最大池化（Max Pooling）和平均池化（Average Pooling）。池化操作通过在特征图上滑动窗口，并取窗口内元素的最大值或平均值，生成池化后的特征图。

1.3 全连接层（Fully Connected Layer）

全连接层通常位于卷积神经网络的最后几层，用于将卷积层和池化层提取的特征映射到输出空间。全连接层的每个神经元与上一层的所有神经元相连接，通过权重和偏置进行线性变换，然后通过激活函数进行非线性变换，生成最终的输出。

1.4 激活函数（Activation Function）

激活函数引入非线性，使得神经网络能够表示复杂的函数关系。常见的激活函数有ReLU（Rectified Linear Unit）、Sigmoid和Tanh等。ReLU函数是目前最常用的激活函数，定义为( \text{ReLU}(x) = \max(0, x) )，其优点是计算简单，并且能够有效缓解梯度消失问题。

二、卷积层和池化层的作用

2.1 卷积层的作用

特征提取：卷积层通过卷积操作提取图像的局部特征，如边缘、角点和纹理等。这些低级特征可以进一步组合成更高级的特征，如物体的形状和结构。
参数共享：卷积层的卷积核在整个图像上共享参数，使得模型具有平移不变性，并且大大减少了参数的数量，提高了计算效率。
局部连接：卷积层的卷积核只与图像的局部区域相连接，减少了计算复杂度，并且能够捕捉到局部的空间关系。

2.2 池化层的作用

降维：池化层通过池化操作降低特征图的空间维度，减少计算复杂度，同时保留重要的特征信息。
防止过拟合：池化层的降维操作减少了模型参数的数量，有助于防止模型过拟合，提高模型的泛化能力。
位置不变性：池化层通过取局部区域的最大值或平均值，使得模型对特征的位置变化具有一定的不变性。

三、经典卷积神经网络模型

3.1 LeNet

LeNet是由Yann LeCun等人在1998年提出的，最初用于手写数字识别（MNIST数据集）。LeNet的结构相对简单，包括两个卷积层、两个池化层和两个全连接层。其基本结构如下：

输入层：28x28的灰度图像。
卷积层1：6个5x5的卷积核，生成6个24x24的特征图。
池化层1：2x2的最大池化，生成6个12x12的特征图。
卷积层2：16个5x5的卷积核，生成16个8x8的特征图。
池化层2：2x2的最大池化，生成16个4x4的特征图。
全连接层1：输入为16x4x4的特征，输出为120个节点。
全连接层2：输入为120个节点，输出为84个节点。
输出层：10个节点，对应10个分类。

LeNet的成功奠定了卷积神经网络在图像识别领域的基础。

3.2 AlexNet

AlexNet由Alex Krizhevsky等人在2012年提出，是第一个在ImageNet竞赛中取得显著突破的深度卷积神经网络。AlexNet的结构比LeNet更深，包括五个卷积层和三个全连接层。其主要特点如下：

使用ReLU激活函数：ReLU激活函数加速了训练过程，并且有效缓解了梯度消失问题。
使用Dropout：在全连接层中使用Dropout防止过拟合。
数据增强：通过数据增强技术增加训练数据，提升模型的泛化能力。
GPU加速：AlexNet利用GPU进行计算，显著加速了训练过程。

AlexNet的基本结构如下：

输入层：224x224x3的彩色图像。
卷积层1：96个11x11的卷积核，步长为4，生成96个55x55的特征图。
池化层1：3x3的最大池化，步长为2，生成96个27x27的特征图。
卷积层2：256个5x5的卷积核，步长为1，生成256个27x27的特征图。
池化层2：3x3的最大池化，步长为2，生成256个13x13的特征图。
卷积层3：384个3x3的卷积核，步长为1，生成384个13x13的特征图。
卷积层4：384个3x3的卷积核，步长为1，生成384个13x13的特征图。
卷积层5：256个3x3的卷积核，步长为1，生成256个13x13的特征图。
池化层3：3x3的最大池化，步长为2，生成256个6x6的特征图。
全连接层1：输入为256x6x6的特征，输出为4096个节点。
全连接层2：输入为4096个节点，输出为4096个节点。
输出层：1000个节点，对应1000个分类。

AlexNet在ImageNet竞赛中的成功证明了深度卷积神经网络在大规模图像分类任务中的强大性能。

3.3 VGG

VGG由Simonyan和Zisserman在2014年提出，其主要贡献是证明了深度和小卷积核在卷积神经网络中的重要性。VGG网络使用3x3的卷积核，并且加深了网络的层数，常见的有VGG16和VGG19。其主要特点如下：

使用3x3的卷积核：所有卷积层都使用3x3的卷积核，步长为1，这使得网络能够更好地捕捉到细节特征。
增加网络深度：通过增加网络的层数来提升模型的表达能力，常见的有16层（VGG16）和19层（VGG19）。

VGG16的基本结构如下：

输入层：224x224x3的彩色图像。
卷积层1：64个3x3的卷积核，步长为1，生成64个224x224的特征图。
卷积层2：64个3x3的卷积核，步长为1，生成64个224x224的特征图。
池化层1：2x2的最大池化，步长为2，生成64个112x112的特征图。
卷积层3：128个3x3的卷积核，步长为1，生成128个112x112的特征图。
卷积层4：128个3x3的卷积核，步长为1，生成128个112x112的特征图。
池化层2：2x2的最大池化，步长为2，生成128个56x56的特征图。
卷积层5：256个3x3的卷积核，步长为1，生成256个56x56的特征图。
卷积层6：256个3x3的卷积核，步长为1，生成256个56x56的特征图。
卷积层7：256个3x3的卷积核，步长为1，生成256个56x56的特征图。
池化层3：2x2的最大池化，步长为2，生成256个28x28的特征图。
卷积层8：512个3x3的卷积核，步长为1，生成512个28x28的特征图。
卷积层9：512个3x3的卷积核，步长为1，生成512个28x28的特征图。
卷积层10：512个3x3的卷积核，步长为1，生成512个28x28的特征图。
池化层4：2x2的最大池化，步长为2，生成512个14x14的特征图。
卷积层11：512个3x3的卷积核，步长为1，生成512个14x14的特征图。
卷积层12：512个3x3的卷积核，步长为1，生成512个14x14的特征图。
卷积层13：512个3x3的卷积核，步长为1，生成512个14x14的特征图。
池化层5：2x2的最大池化，步长为2，生成512个7x7的特征图。
全连接层1：输入为512x7x7的特征，输出为4096个节点。
全连接层2：输入为4096个节点，输出为4096个节点。
输出层：1000个节点，对应1000个分类。

. 卷积层4：128个3x3的卷积核，步长为1，生成128个112x112的特征图。
7. 池化层2：2x2的最大池化，步长为2，生成128个56x56的特征图。
8. 卷积层5：256个3x3的卷积核，步长为1，生成256个56x56的特征图。
9. 卷积层6：256个3x3的卷积核，步长为1，生成256个56x56的特征图。
10. 卷积层7：256个3x3的卷积核，步长为1，生成256个56x56的特征图。
11. 池化层3：2x2的最大池化，步长为2，生成256个28x28的特征图。
12. 卷积层8：512个3x3的卷积核，步长为1，生成512个28x28的特征图。
13. 卷积层9：512个3x3的卷积核，步长为1，生成512个28x28的特征图。
14. 卷积层10：512个3x3的卷积核，步长为1，生成512个28x28的特征图。
15. 池化层4：2x2的最大池化，步长为2，生成512个14x14的特征图。
16. 卷积层11：512个3x3的卷积核，步长为1，生成512个14x14的特征图。
17. 卷积层12：512个3x3的卷积核，步长为1，生成512个14x14的特征图。
18. 卷积层13：512个3x3的卷积核，步长为1，生成512个14x14的特征图。
19. 池化层5：2x2的最大池化，步长为2，生成512个7x7的特征图。
20. 全连接层1：输入为512x7x7的特征，输出为4096个节点。
21. 全连接层2：输入为4096个节点，输出为4096个节点。
22. 输出层：1000个节点，对应1000个分类。
VGG网络在ImageNet竞赛中取得了优异成绩，证明了通过增加网络深度和使用小卷积核可以显著提升模型性能。

3.4 ResNet

ResNet（Residual Network）由He等人在2015年提出，其主要创新点是引入了残差连接（Residual Connection），有效解决了深度神经网络的梯度消失问题。ResNet在ImageNet竞赛中取得了显著的成绩，并且成为了深度学习模型的一个重要里程碑。
ResNet的主要特点如下：

残差连接：通过引入残差连接，将输入直接添加到输出，缓解了梯度消失问题，使得更深的网络能够成功训练。
模块化设计：ResNet由多个残差模块（Residual Block）组成，每个模块包括两个或三个卷积层和一个快捷连接（Skip Connection）。

ResNet的基本结构如下：

输入层：224x224x3的彩色图像。
卷积层1：64个7x7的卷积核，步长为2，生成64个112x112的特征图。
池化层1：3x3的最大池化，步长为2，生成64个56x56的特征图。
残差模块1：3个残差单元，每个单元包括两个3x3的卷积层。
残差模块2：4个残差单元，每个单元包括两个3x3的卷积层。
残差模块3：6个残差单元，每个单元包括两个3x3的卷积层。
残差模块4：3个残差单元，每个单元包括两个3x3的卷积层。
全局平均池化：将特征图的每个通道进行全局平均池化，生成2048个节点。
全连接层：1000个节点，对应1000个分类。

ResNet通过引入残差连接，成功训练了50层、101层甚至更深的网络，并在ImageNet竞赛中取得了优异成绩，成为深度学习模型的重要基石。

四、小结

卷积神经网络作为深度学习中的重要模型，广泛应用于图像处理领域。本文详细介绍了卷积神经网络的基本结构、卷积层和池化层的作用，以及经典的卷积神经网络模型（LeNet、AlexNet、VGG、ResNet）。通过理解这些内容，可以更好地应用卷积神经网络解决实际问题，并不断提升模型性能。在未来，随着深度学习技术的不断发展，卷积神经网络将继续在各个领域发挥重要作用。

关注

32
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

屿小夏 CSDN认证博客专家 CSDN认证企业博客

码龄1年

全栈领域新星创作者

696: 原创

33: 周排名

208: 总排名

671万+: 访问

: 等级

4万+: 积分

4万+: 粉丝

2万+: 获赞

1万+: 评论

2万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Java】已解决：ResponseEntityException的Spring MVC异常响应实体异常
码踏云端: 文章富含营养，干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。
【Java】已解决：org.springframework.jdbc.InvalidResultSetAccessException 无效的结果集访问异常
百锦再@新空间代码工作室: 这篇文章真是让人眼前一亮，作者对于解决org.springframework.jdbc.InvalidResultSetAccessException无效的结果集访问异常的方法详细又清晰，简直让人信手拈来。不得不感叹作者的深厚功底和丰富经验，让我们在遇到类似问题时能够游刃有余地解决。真是一篇无比华美的文章，让人赞叹不已！
【Python】已解决：ImportError: cannot import name ‘PILLOW_VERSION‘
码踏云端: 这位博主的文章真是让人眼前一亮，内容丰富而充实，仿佛是一本浓缩的百科全书。每一句话都蕴含着深刻的见解和独到的思考，让人在阅读中不断获得新知和启迪。博主不仅对主题进行了全面而深入的剖析，还巧妙地融入了个人见解和情感体验，使得文章更加生动和引人入胜。读罢全文，我不禁为博主的才华和勤奋点赞，期待他能继续为我们带来更多精彩的作品。博主写得真好~
【Python】已解决：ModuleNotFoundError: No module named ‘PIL’
AlgoRythmMistress: 文章详细介绍了Python中'ModuleNotFoundError: No module named ‘PIL’'错误的解决方法，从缺失Pillow库和导入语句错误两个常见原因入手，给出了正确的代码示例和处理建议，对遇到同样问题的开发者很有帮助。
【Python】已解决：xlrd.biffh.XLRDError: Excel xlsx file； not supported
凯子坚持 c: 博主的博文写得真是太精彩了！每一篇都充满了独特的思考和深邃的见解，仿佛引领我们进入了一个全新的领域。博主的笔触细腻且富有感染力，让人在阅读的过程中不断被吸引，仿佛与博主一同经历了一场思想的盛宴。博主的博文不仅内容丰富，而且结构清晰，逻辑严密，读起来令人陶醉。博主真的是一个才华横溢的创作者，期待您未来更多精彩的作品！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

屿小夏 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。