1.输入层。
(1)多输入(多通道):将一张彩色图片作为输入,学习其特征。彩色图片通常由三个颜色通道组成,即RGB通道,即3通道图像。
(2)实例说明: 将一个图片数据集抽象为四维[数量、长、宽、色彩],每个维度都是一个通道的概念。 例如对于一张 32×32 分辨率的彩色照片来讲,一般将其抽象为向量[1, 32, 32, 3]。
(3)卷积知识:(一次步骤:在3通道卷积核1中,经过3个卷积核进行卷积后,得到的是3个维度的,然后3个维度合并成一个维度,即单通道特征图1)(若想要升维,那就需要n个卷积核进行卷积,即进行多个一次步骤,最后就得到n维,即n通道特征图)
2.卷积层。
(1)卷积本质是矩阵相乘再相加: 在每个通道中,均需要一个卷积核进行卷积操作,卷积核实质上就是一个N×N矩阵。如图所示,卷积核就是一个3×3的矩阵。
图片的输入层也是一个矩阵。如下图,卷积操作就是数据窗口的矩阵和卷积核的矩阵相乘再相加得到的。以此来减少特征值数量,加强特征性。
(2)有几个通道就有几个卷积核:值得注意的是,因为一个图片有多个通道的输入,每个卷积核只能处理一个通道。因此,有几个通道就需要有几个卷积核。
3.激活函数。
(1)非线性(更高维):神经网络能通过激活函数获取更高维的特征,意味着神经网络可以学习到更加抽象和复杂的特征表示,这些特征可以在更高维的空间中区分不同类别的数据。
(2)举例说明:当没有激活函数时,只能处理线性问题。如下图,y = ax+b ,(x+y)² = r²
应用激活函数后,可以对空间进行升维,在更高维度学习特征。此时线性不可分。
(3)自我理解:讲解激活函数时,多用分类问题来讲解。需要知道的是,分类并不是学到的特征,而是一种应用场景,用来说明神经网络如何通过激活函数和更高维的特征表示来实现分类任务。
你可以理解,神经网络通过激活函数在更高维发现了一个特征,它把这个特征给一个特征1的标签。当下次它在遇到相同的特征时,就自然而然的将它往特征1上靠拢,从而进行分类和识别。至于网络怎么理解这个特征、学到了什么特征,其实不需要想太多。
4. 池化层
(1)作用:池化层的作用是对输入的特征图进行下采样,减少参数数量,降低计算复杂度,并增强模型的鲁棒性。
(2)池化与卷积的区别:池化不进行矩阵运算,而卷积进行。
平均值池化: 将矩阵内的值 求和取均值
最大值池化:取矩阵中的最大值
5.全连接层
(1)如图,经过上述步骤得到5维输出。
(2)首先,需要将这个3×3×5的输出转换为 1×4096的形式,因此需要进行卷积。
这里,我们用一个3x3x5的filter 去卷积输出,然后sum求和,得到的结果就是一个神经元的输出。因为有4096个输出,因此需要4096个上述的filter 。
(3)全连接时,每一个线都有一个权重。 通过矩阵相乘就能得到10个结果的概率值。
(4)难点:权值的更新。