一文看懂卷积神经网络CNN的核心

最新推荐文章于 2022-12-05 20:01:43 发布

Cy_coding

最新推荐文章于 2022-12-05 20:01:43 发布

阅读量1.3k

点赞数 3

分类专栏：深度学习文章标签： python 深度学习神经网络

本文链接：https://blog.csdn.net/cy_coding/article/details/120715378

版权

本文深入探讨卷积神经网络（CNN）为何在图像处理中重要，解释卷积的数学定义，以及CNN如何通过卷积核提取图像特征，讨论网络结构和训练过程。

摘要由CSDN通过智能技术生成

在之前，我总结了关于计算机神经网络与梯度下降的核心，详见下文链接 :
一文看懂计算机神经网络与梯度下降
本文主要会对图像相关的机器学习中最为重要的网络，卷积神经网络作个人的理解分析。

1. 为什么要使用卷积神经网络

在讲述原理之前，我们先来解释为什么我们在图像及视频等等领域的机器学习中要使用CNN。我们都知道，使用多层感知器，有隐藏层的深度神经网络可以帮助我们解决分类，聚合，回归问题。但当我们的输入输出转变为高维度的数据，例如图片时，不可避免地要面临神经元过多，参数量过大的问题。假设我们使用一张720*480的图片作为输入，一张图片对应的参数量就已经达到了345600个，如果我们单纯地将数据压为一维向量并继续使用全连接的神经网络，那不可避免的会极大增加运算成本，降低模型的效率，显然是不科学的。同样的，对于图像而言，如果说像素点的灰度值或RGB值可以对应我们在一维数据中使用的数值，那么图像的空间性在我们将其转变为一维后实际上是被抛弃了，这会导致我们忽略了图像局部形态所包含的信息，使得一些非常轻微的平移旋转对结果产生翻天覆地的变化，这是我们不能容忍的。对于我们来说，两个图片中不同位置的物体所包含的含义应当是一致的，即只应当考虑图片的相对位置而非绝对位置。
在接下来的部分，我会着重阐述卷积神经网络的原理，其中包含一些个人的看法理解。

2. 图像处理中的卷积核

要想理解卷积神经网络的运作，首先必须理解图像处理中卷积的含义。需要注意的是，虽然卷积神经网络中有卷积二字，但是其实他与传统意义上数学定义的卷积是有区别的。更为准确的叫法应当称之为协相关神经网络，而非卷积神经网络。如下图所示，我们以一个常见的3*3的卷积核为例，目标像素点对应的值由其周围对应的原像素点和卷积核计算协相关得来。
在这里插入图片描述
由上图我们不难发现，经过卷积后的目标图像中的每一个像素点都对应了原图像中的局部特征，使用不同的卷积核，就可以从原图像中提取出不一样的局部特征了。计算目标图像的方式，是将卷积核在原图像上滑动，与各个部分的图像分别计算卷积直到遍历全部的原图像。
$h^n(i,j) = (h^{n-1}*\omega_k)(i,j) = \sum^{\frac{d-1}{2}}_{n=-\frac{d-1}{2}}\sum^{\frac{d-1}{2}}_{m=-\frac{d-1}{2}}h^{n-1}(i+n,j+m) * \omega(n,m)$