深度学习之卷积神经网络（Convolutional Neural Networks ，CNN）

本文链接：https://blog.csdn.net/undousing/article/details/139720946

人工智能泛指让机器具有人的智力的技术。这项技术的目的是使机器像人一样感知、思考、做事、解决问题。深度学习属于深度学习里面的机器学习分支，目前已经在各科研工作者的研究下，慢慢的应用于各大工程领域。基于人工智能的认知无线电研究也逐渐增多，无论是信号的分选还是特征的提取，神经网络都可以发挥很大的贡献，今天我们就其中应用最为普遍的卷积神经网络来进行讲解。

神经网络并没有我们想象的那么复杂，它仅仅是一种类似于人类神经元工作的信号处理过程，主要被划分为输入层、卷积层、池化层、全连接层及输出层，在所有层级中，卷积层是负责将输入的数据进行卷积运算，这个卷积的过程会让我们提取到信息的主要成分，然后送入下一级卷积层，完成更细致的特征提取，下面我们就通过一个最简单的例子来了解一下他的具体原理。

1.数据输入层/ Input layer

最开始接收的原始数据在不同的维度上数值范围不一样，而后续的卷积运算需要进行特征提取，这个特征主要就是图像不同维度上体现出的数值，那么我们要想公平的提取到不同维度的特征，首先就要进行归一化处理，否则只会获取特征大的数据，而不是某一维度上特征大的数据，该层要做的处理主要是对原始图像数据进行预处理，其中包括：

去均值：把输入数据各个维度都中心化为0，如下图所示，其目的就是把样本的中心拉回到坐标系原点上。归一化：幅度归一化到同样的范围，如下所示，即减少各维度数据取值范围的差异而带来的干扰，比如，我们有两个维度的特征A和B，A范围是0到10，而B范围是0到10000，如果直接使用这两个特征是有问题的，好的做法就是归一化，即A和B的数据都变为0到1的范围。PCA/白化：用PCA降维；白化是对数据各个特征轴上的幅度归一化。

2.卷积计算层/ CONV layer

这一层就是卷积神经网络最重要的一个层次，也是“卷积神经网络”的名字来源。在这个卷积层，有两个关键操作：

局部关联。每个神经元看做一个滤波器(filter)

窗口**(receptive field)**滑动， filter对局部数据计算。

说白了这一层就是对我们归一化得到的输入数据进行卷积运算，那么如何进行卷积运算呢，我们事先自己设计一个滤波器，他的维度很明显是要小于我们输入数据的，然后我们把这个滤波器从输入数据的左上角开始按照一定的步伐滑动到右下角，此时我们的滤波器已经设置好相应位置的元素值，然后通过与之对应的输入数据值进行卷积运算，这就是卷积层的基本过程，下面我们更加细致的讲述这个过程。

先介绍卷积层遇到的几个名词：深度**/depth**（解释见下图）、步幅**/stride** （窗口一次滑动的长度）、填充值**/zero-padding。**

每一层的行为，有两个主要参数是我们可以调整的。选择了过滤器的尺寸，以后，我们还需要选择步幅（stride）和填充（padding）。

步幅控制着过滤器围绕输入内容进行卷积计算的方式。在第一部分我们举的例子中，过滤器通过每次移动一个单元的方式对输入内容进行卷积。过滤器移动的距离就是步幅。在那个例子中，步幅被默认设置为1。步幅的设置通常要确保输出内容是一个整数而非分数。让我们看一个例子。想象一个 7 x 7 的输入图像，一个 3 x 3 过滤器（简单起见不考虑第三个维度），步幅为 1。这是一种惯常的情况。

填充值是什么呢？

在此之前，想象一个场景：当你把 5 x 5 x 3 的过滤器用在 32 x 32 x 3 的输入上时，会发生什么？输出的大小会是 28 x 28 x 3。注意，这里空间维度减小了。如果我们继续用卷积层，尺寸减小的速度就会超过我们的期望。在网络的早期层中，我们想要尽可能多地保留原始输入内容的信息，这样我们就能提取出那些低层的特征。比如说我们想要应用同样的卷积层，但又想让输出量维持为 32 x 32 x 3 。为做到这点，我们可以对这个层应用大小为 2 的零填充（zero padding）。零填充在输入内容的边界周围补充零。如果我们用两个零填充，就会得到一个 36 x 36 x 3 的输入卷。

如果我们在输入内容的周围应用两次零填充，那么输入量就为 32×32×3。然后，当我们应用带有 3 个 5×5×3 的过滤器，以 1 的步幅进行处理时，我们也可以得到一个 32×32×3 的输出

如果你的步幅为 1，而且把零填充设置为

K 是过滤器尺寸，那么输入和输出内容就总能保持一致的空间维度。

计算任意给定卷积层的输出的大小的公式是

其中 O 是输出尺寸，K 是过滤器尺寸，P 是填充，S 是步幅。

卷积的计算

（注意，下面蓝色矩阵周围有一圈灰色的框，那些就是上面所说到的填充值）

3.ReLU****激励层 / ReLU layer

激励层主要作用是把卷积层输出结果做非线性映射，那么为什么要真么做呢，因为在实际应用过程中大都是非线性环境，因此经过非线性映射会让我们的神经网络运行更加符合逻辑。**
**

CNN采用的激活函数一般为ReLU(The Rectified Linear Unit/修正线性单元)，它的特点是收敛快，求梯度简单，但较脆弱。

**4.**池化层 / Pooling layer

池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。
简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。

这里再展开叙述池化层的具体作用：

特征不变性，也就是我们在图像处理中经常提到的特征的尺度不变性，池化操作就是图像的resize，平时一张小猫的图像被缩小了一倍我们还能认出这是一张小猫的照片，这说明这张图像中仍保留着狗最重要的特征，我们一看就能判断图像中画的是一只猫，图像压缩时去掉的信息只是一些无关紧要的信息，而留下的信息则是具有尺度不变性的特征，是最能表达图像的特征。特征降维，我们知道一幅图像含有的信息是很大的，特征也很多，但是有些信息对于我们做图像任务时没有太多用途或者有重复，我们可以把这类冗余信息去除，把最重要的特征抽取出来，这也是池化操作的一大作用。在一定程度上防止过拟合，更方便优化。

池化层用的方法有Max pooling 和 average pooling，而实际用的较多的是Max pooling。这里就说一下Max pooling，其实思想非常简单。

对于每个2 * 2的窗口选出最大的数作为输出矩阵的相应元素的值，比如输入矩阵第一个2 * 2窗口中最大的数是6，那么输出矩阵的第一个元素就是6，如此类推。

**5.**全连接层 / FC layer

两层之间所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的：

卷积神经网络的灵感来源于我们神经网络的工作过程，虽然大部分科学家认为神经网络过于玄学，但是他扔给我们的科研工作带来了极大的推动。要想学好神经网络还是要从最基本的原理学起，感兴趣的同学可以学一学《deep learning》一书。
既然大模型现在这么火热，各行各业都在开发搭建属于自己企业的私有化大模型，那么势必会需要大量大模型人才，同时也会带来大批量的岗位？“俗话说站在风口，猪都能飞起来”可以说大模型这对于我们来说就是一个机会，一个可以改变自身的机会，就看我们能不能抓住了。

那么，我们该如何学习大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线

学习大型人工智能模型，如GPT-3、BERT或任何其他先进的神经网络模型，需要系统的方法和持续的努力。既然要系统的学习大模型，那么学习路线是必不可少的，下面的这份路线能帮助你快速梳理知识，形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别：AI大模型API应用开发工程

L3级别：大模型应用架构进阶实践

L4级别：大模型微调与私有化部署

一般掌握到第四个级别，市场上大多数岗位都是可以胜任，但要还不是天花板，天花板级别要求更加严格，对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。