深度学习笔记(一): 神经网络之感知机详解

ZZY_dl

已于 2024-12-27 11:31:50 修改

阅读量926

点赞数

分类专栏：深度学习文章标签：神经网络深度学习

于 2021-01-14 15:47:46 首次发布

本文链接：https://blog.csdn.net/m0_51004308/article/details/112611141

版权

深度学习专栏收录该内容

19 篇文章

订阅专栏

在这里插入图片描述

文章目录

感知机：深度学习领域的基石模型

感知机：深度学习领域的基石模型

在深度学习的宏大体系中，感知机作为一种基础且重要的模型，犹如一颗璀璨的启明星，为后续众多复杂模型的发展照亮了道路。深入探究感知机的定义、功能、损失函数以及参数求解方法，不仅有助于我们理解深度学习的核心原理，更是打开高级模型研究大门的关键钥匙。

感知机模型的定义剖析

感知机模型构建起了从输入空间到输出空间的桥梁。其输入空间由 ( x_i(x_i^{(1)}, x_i^{(2)}, x_i^{(3)} \cdots x_i^{(n)}) ) 构成，这些向量承载着样本的丰富特征信息。每一个维度 ( x_i^{(j)} )（( j = 1, 2, \cdots, n )）都可能代表着样本的某个特定属性，比如在图像识别中，可能是像素点的颜色值、亮度等；在文本分类中，可能是某个单词的出现频率等。

而输出空间则相对简洁，仅包含 ( {-1, +1} ) 两个取值，用于表示样本所属的类别。这种简单的二元输出，虽然看似简单，却在许多实际问题中发挥着重要作用，例如判断一封邮件是垃圾邮件（( -1 )）还是正常邮件（( +1 )），或者判断一张图片是猫的图片（( +1 )）还是狗的图片（( -1 )）等。

连接这两个空间的映射函数 ( f(x) = sign(w \cdot x + b) ) 便是感知机的核心。其中，权重向量 ( w ) 如同模型的“决策砝码”，决定了每个输入特征对最终输出的影响力。权重向量 ( w ) 的每一个分量 ( w_j ) 对应着输入特征 ( x^{(j)} ) 的权重，它反映了该特征在模型决策过程中的重要程度。如果 ( w_j ) 的绝对值较大，说明对应的特征 ( x^{(j)} ) 对模型输出的影响较大；反之，如果 ( w_j ) 接近 0，则该特征对模型输出的影响较小。

偏置 ( b ) 则像是一个“微调旋钮”，用于调整模型的决策边界，使模型能够更好地适应不同的数据分布。在实际应用中，不同的数据集可能具有不同的分布特点，偏置 ( b ) 的存在可以让模型在不改变权重向量 ( w ) 的情况下，对决策边界进行微调，从而提高模型的泛化能力。

( w \cdot x ) 这一内积运算，将输入特征与权重进行融合，为模型的决策提供了数值基础。它通过将每个输入特征 ( x^{(j)} ) 与对应的权重 ( w_j ) 相乘后求和，得到一个综合的数值。这个数值反映了输入样本在当前权重下的得分情况，得分越高，说明样本越倾向于某个类别。

而 ( sign(x) ) 符号函数，依据输入值的正负，输出 ( +1 ) 或 ( -1 )，完成了从数值到类别标签的转换。其具体定义如下：
[
sign(x) =
\begin{cases}
+1, & \text{if } x \geq 0 \
-1, & \text{if } x < 0
\end{cases}
]

感知机模型的功能解析

感知机本质上是一个简洁而高效的二分类模型，它以样本的特征向量作为输入“钥匙”，试图打开样本类别归属的“大门”，输出 ( +1 ) 或 ( -1 ) 这两个明确的类别标签。

然而，感知机发挥其最佳性能的前提是数据集具有线性可分性。在不同维度的空间中，线性可分性有着不同的几何呈现：

在二维平面的“舞台”上，线性可分意味着能够用一条直线将正、负样本清晰地“划分阵营”，如同在一张纸上用笔画出一条界限，将不同属性的点分隔开来。这条直线可以用方程 ( w_1x_1 + w_2x_2 + b = 0 ) 来表示，其中 ( w_1 ) 和 ( w_2 ) 是权重向量 ( w ) 的两个分量， ( x_1 ) 和 ( x_2 ) 是输入特征向量 ( x ) 的两个维度。正样本位于直线的一侧，负样本位于直线的另一侧，通过这条直线，我们可以轻松地判断一个样本属于正类还是负类。
当场景切换到三维空间，线性可分则表现为能用一个平面将正、负样本“一分为二”，这个平面就像一个无形的屏障，将不同类别的样本隔离开。平面的方程可以表示为 ( w_1x_1 + w_2x_2 + w_3x_3 + b = 0 )，其中 ( w_1, w_2, w_3 ) 是权重向量 ( w ) 的三个分量， ( x_1, x_2, x_3 ) 是输入特征向量 ( x ) 的三个维度。在三维空间中，通过这个平面，我们同样可以清晰地划分正、负样本。
在更为抽象的 ( n ) 维空间中，线性可分体现为能用 ( n - 1 ) 维超平面将正、负样本精准地分开，尽管难以直观想象，但从数学原理上，它同样实现了样本的有效分类。这个 ( n - 1 ) 维超平面的方程为 ( \sum_{i = 1}^{n} w_ix_i + b = 0 )，它将 ( n ) 维空间划分为两个区域，分别对应正样本和负样本。

但现实世界中的数据往往并非如此“规整”，很多时候数据集是线性不可分的。面对这一挑战，我们可以通过巧妙的方法将其转化为线性可分的情况。例如：

在二维空间中，若一条直线无法完成正负样本的划分任务，我们可以尝试引入两条直线，通过精心设计规则，当样本同时满足这两条直线的特定条件时，判定其为正样本，否则为负样本，从而实现分类目标。假设两条直线的方程分别为 ( w_{11}x_1 + w_{12}x_2 + b_1 = 0 ) 和 ( w_{21}x_1 + w_{22}x_2 + b_2 = 0 )，我们可以规定当样本点 ( (x_1, x_2) ) 满足某个关于这两条直线的逻辑条件（比如在两条直线的某一侧的交集区域）时，判定为正样本，否则为负样本。
在工业界的实际应用中，常常采用一条曲线来分隔正负样本。实现的思路是构建多个线性分类器，然后将这些线性分类器巧妙地叠加组合，形成类似锯齿状的线。尽管这条线并非传统意义上的圆滑曲线，但却能有效地完成非线性分割的艰巨任务，为复杂数据的分类提供了可行的解决方案。具体来说，我们可以先构建一系列简单的线性分类器，每个线性分类器都能对数据进行初步的划分。然后，通过将这些线性分类器按照一定的顺序和规则组合起来，就可以形成一个复杂的非线性分类边界。例如，我们可以将多个线性分类器的输出进行逻辑组合（如与、或、非等运算），从而得到一个更强大的分类器，能够处理线性不可分的数据。

感知机模型图与参数求解策略

感知机模型图直观地展现了模型的结构与运行机制：
在这里插入图片描述

从这张模型图中，我们清晰地看到，求解权重向量 ( w ) 和偏置 ( b ) 是模型构建的关键任务。只有准确确定这两个参数，才能构建出那个能够正确分离所有正负样本的超平面 ( S )，实现模型的精准分类。

为了找到这两个关键参数，我们引入损失函数这一重要工具，并通过将损失函数极小化的方式来寻找最优的 ( w ) 和 ( b ) 值。在众多优化方法中，梯度下降法是一种常用且有效的策略。它如同一位在损失函数“山谷”中寻找最低点的探索者，通过不断迭代更新参数，沿着损失函数梯度的反方向小心翼翼地移动，逐步减小损失函数的值，直至找到最优参数。

具体来说，梯度下降法的迭代过程如下：首先，我们定义一个初始的权重向量 ( w_0 ) 和偏置 ( b_0 )，这可以是随机初始化的值，也可以根据一些先验知识进行设置。然后，在每一次迭代中，我们计算当前损失函数关于 ( w ) 和 ( b ) 的梯度 ( \nabla_w L(w, b) ) 和 ( \nabla_b L(w, b) )，其中 ( L(w, b) ) 是损失函数。接着，我们根据梯度的方向来更新权重向量 ( w ) 和偏置 ( b )，更新公式为 ( w_{t + 1} = w_t - \alpha \nabla_w L(w_t, b_t) ) 和 ( b_{t + 1} = b_t - \alpha \nabla_b L(w_t, b_t) )，其中 ( \alpha ) 是学习率，它控制着每次更新的步长。学习率的选择非常关键，如果学习率过大，可能会导致模型在迭代过程中跳过最优解，无法收敛；如果学习率过小，模型的收敛速度会非常缓慢，需要大量的迭代次数才能达到最优解。

除了梯度下降法，深度学习领域还涌现出了许多更先进的方法，例如 ( Momentum )、( AdaGrad )、( Adam ) 等。这些方法在不同程度上对梯度下降法进行了改进和优化，能够更高效地找到损失函数的最小值，提升模型的训练效果。

( Momentum ) 方法引入了动量的概念，它在更新参数时不仅考虑当前的梯度，还考虑了之前的梯度方向。这就好比一个物体在运动过程中具有惯性，它会沿着之前的运动方向继续前进，同时受到当前梯度的影响进行调整。通过这种方式，( Momentum ) 方法可以加速模型的收敛速度，尤其是在损失函数的梯度方向变化较大的情况下，表现更为出色。

( AdaGrad ) 方法则是根据每个参数的梯度历史信息来调整学习率。它为每个参数都设置了一个独立的学习率，对于那些梯度变化较大的参数，学习率会逐渐减小，以避免参数更新过于剧烈；对于那些梯度变化较小的参数，学习率会相对较大，以加快参数的收敛速度。这种自适应的学习率调整方式可以使模型更加稳定地收敛，提高训练效率。

( Adam ) 方法结合了 ( Momentum ) 和 ( AdaGrad ) 的优点，它不仅考虑了梯度的一阶矩（即梯度的均值），还考虑了梯度的二阶矩（即梯度的平方均值）。通过对这两个矩的估计和调整，( Adam ) 方法能够更加准确地计算参数的更新步长，从而在不同的数据集和模型结构上都表现出良好的性能。

关于这些方法的详细介绍，感兴趣的读者可以参考 https://blog.csdn.net/m0_51004308/article/details/112614340。

损失函数：模型优化的核心度量

在感知机模型的参数求解过程中，选择误分类点到超平面 ( S ) 的总距离作为损失函数，是一种既直观又有效的方式。

我们先来深入分析输入空间 ( x_i(x_i^{(1)}, x_i^{(2)}, x_i^{(3)} \cdots x_i^{(n)}) ) 中任一点 ( x_0 ) 到超平面 ( S ) 的距离。超平面 ( S ) 的方程为 ( w \cdot x + b = 0 )，根据点到超平面的距离公式，点 ( x_0 ) 到超平面 ( S ) 的距离 ( d ) 可以表示为：
[
d = \frac{|w \cdot x_0 + b|}{|w|}
]
其中，( |w| ) 表示权重向量 ( w ) 的范数，通常采用 ( L_2 ) 范数，即 ( |w| = \sqrt{\sum_{i = 1}^{n} w_i^2} )。

对于感知机模型，我们的目标是使误分类点到超平面 ( S ) 的总距离最小。假设我们有 ( N ) 个样本，其中有 ( M ) 个误分类点，那么损失函数 ( L(w, b) ) 可以定义为：
[
L(w, b) = \sum_{i \in M} \frac{|w \cdot x_i + b|}{|w|}
]

由于 ( |w| ) 在计算过程中是一个常数，为了简化计算，我们可以将损失函数改写为：
[
L(w, b) = \sum_{i \in M} |w \cdot x_i + b|
]

这个损失函数直观地反映了误分类点到超平面的距离总和。我们的任务就是通过调整权重向量 ( w ) 和偏置 ( b )，使得这个损失函数的值最小。在实际计算中，我们通常会使用梯度下降法等优化算法来求解这个最小化问题。

通过对损失函数的不断优化，我们可以逐步调整感知机模型的参数，使得模型能够更好地分类样本，提高模型的准确性和泛化能力。

综上所述，感知机模型虽然结构简单，但却蕴含着丰富的数学原理和实际应用价值。通过对其定义、功能、模型图、参数求解策略以及损失函数的深入理解，我们能够更好地掌握这一基础模型，并为进一步学习和研究更复杂的深度学习模型奠定坚实的基础。