【Datawhale AI 夏令营第五期学习笔记】Datawhale X 李宏毅苹果书深度学习入门 AI夏令营 Task2 #Datawhale #AI夏令营-CSDN博客

本文链接：https://blog.csdn.net/2301_80126721/article/details/141757659

线性模型的优化与应用

1.2 线性模型

在前面的步骤中，已经通过梯度下降法找到了一组参数 ( w ) 和 ( b )，这组参数能够将损失函数的值减少到 480。接下来，在已知的数据上计算损失，并使用这个函数预测未来的观看次数。

假设有从 2017 年到 2020 年的观看次数数据。假装不知道这些年份的隔天观看次数，然后使用之前找到的函数来进行预测，得到了一个误差为 480 的结果。接下来，我们利用这个函数预测未来的数据。

具体地，从 2021 年 1 月 1 日开始：

使用 2020 年 12 月 31 日的观看人次预测 2021 年 1 月 1 日的观看人次。
使用 2021 年 1 月 1 日的观看人次预测 2021 年 1 月 2 日的观看人次。
依此类推，每天使用前一天的数据进行预测，直到 2021 年 2 月 14 日。

在此过程中，计算每一天的平均误差 ( L’ ) ，该误差在未见过的数据上为 0.58。换句话说，在 2021 年的数据上，模型的误差大约为每 600 人左右。下图展示了预测结果：
在这里插入图片描述

横轴代表时间，0 表示 2021 年 1 月 1 日，最右边的点表示 2021 年 2 月 14 日。
纵轴代表观看人次，单位为千人。

红色的线是真实的观看人次，蓝色的线是机器利用模型预测的观看人次。可以观察到，蓝色的线几乎是红色线的平移，仅仅是向右移动了一天。这是合理的，因为模型的特征 ( x₁ ) 是前一天的观看人次，它用前一天的观看人次来预测隔天的观看人次。

真实数据的周期性

从数据中可以发现一个周期性现象：每隔 7 天，观看人次就会出现两天的低谷期（通常是周五和周六）。现有模型的局限性在于它只考虑了前一天的观看数据。

为了更好地捕捉这一周期性，我们可以修改模型，考虑前 7 天的数据，而不仅仅是前一天的数据。修改后的模型如下：

$\sum_{j=1}^{7} w_j x_j$

其中，( x_j ) 表示第 ( j ) 天的观看次数（即 7 天前的数据），各个数据乘以不同的权重 ( w_j )，并加上偏置 ( b )，最终得到预测的结果。

使用这个模型进行预测时：

在训练数据上的损失减少到 380。
而只考虑 1 天的模型在训练数据上的损失为 480。

由于新模型考虑了前 7 天的历史数据，所以在训练数据上的表现更好，损失更低。在未见过的数据上的表现也有所改善，损失减少到 490（相比之下，原模型的误差是 580）。

通过梯度下降法，我们计算得到了最优的 ( w ) 和 ( b ) 值，如下表所示。

b	( w₁* )	( w₂* )	( w₃* )	( w₄* )	( w₅* )	( w₆* )	( w₇* )
50	0.79	-0.31	0.12	-0.01	-0.10	0.30	0.18

从表中可以看出：

前一天的观看人次对隔天的预测影响最大，因此 ( w₁* ) 的值为 0.79。
如果是前两天、前四天、前五天的观看人次，它们与隔天的观看人次呈反比关系，因此 ( w₂* )、( w₄* ) 和 (w₅* ) 是负数。
而 ( w₁* )、( w₃* )、(w₆* )、( w₇* ) 是正值。

扩展到更多天数

我们还可以进一步扩展模型，考虑更多的历史数据。例如，考虑前 28 天的数据：

$\sum_{j=1}^{28} w_j x_j$

在这种情况下：

训练数据上的损失减少到 330。
在 2021 年的数据上，损失为 460。

如果考虑前 56 天的数据：

$\sum_{j=1}^{56} w_j x_j$

在这种情况下：

训练数据上的损失减少到 320。
在未见过的数据上，损失仍然为 460。

从结果来看，进一步增加考虑的天数并未显著降低损失，这表明考虑天数已经达到一个极限。

这些模型都是通过将输入特征 ( x ) 乘以一个权重，然后加上偏置 ( b ) 来得到预测结果，这类模型称为线性模型（Linear Model）。

总结

通过对模型的观察与改进，逐步提升了预测精度。这一过程展示了线性模型的基本应用以及如何结合数据的周期性特征进行模型优化。下一步，将继续探讨如何进一步优化线性模型，使其能够更好地捕捉数据的复杂模式。

1.2.1 分段线性曲线

在深度学习中，理解特征与目标变量之间的复杂关系至关重要。线性模型虽然简单，但在某些情况下，它可能无法捕捉到输入变量（如 ( x₁ )）与输出变量（如 ( y )）之间的复杂关系。为了解决这一问题，可以使用分段线性曲线来更好地拟合数据。

线性模型的局限性

线性模型假设 ( x₁ ) 与 ( y ) 之间的关系是一条直线，即随着 ( x₁ ) 的增加，( y ) 也会线性地增加。然而，这种简单的假设并不能总是准确地反映实际情况。例如，在实际场景中，可能存在以下情况：

当 ( x₁ ) 小于某个阈值时，( x₁ ) 与 ( y ) 之间成正比关系。
当 ( x₁ ) 大于某个阈值时，( y ) 的增长会放缓甚至减少。
也许 ( x₁ ) 跟( y ) 中间，有一个比较复杂的、像下图中红色线一样的关系。

这些非线性的关系显然无法通过简单的线性模型来表达，这种限制被称为模型的偏差。因此，需要一个更复杂、更灵活的函数来模拟这种关系。
在这里插入图片描述

分段线性曲线的构建

分段线性曲线是一种能够更好地拟合复杂数据关系的模型。我们可以将其看作是一个常数加上一组 Hard Sigmoid 函数的组合。这种函数的特性如下：

在输入值较小时，输出趋于平坦。
在特定区间内，函数输出会有一个斜坡。
超过某个输入值后，函数输出再次趋于平坦。

为了构建分段线性曲线，可以通过以下步骤实现：

常数项：设定与红色曲线（目标曲线）和 ( x ) 轴交点相等的常数项。
Hard Sigmoid 函数的叠加：通过调节多个 Hard Sigmoid 函数的斜率、起点和终点，使得它们分别匹配红色曲线的各个部分的斜率与形状。

通过这种方法，可以将多个 Hard Sigmoid 函数叠加起来，得到一条能够逼近原始红色曲线的分段线性曲线。如下图中，红色曲线即为蓝色曲线 0+1+2+3 的结果。
在这里插入图片描述

用 Sigmoid 函数逼近 Hard Sigmoid 函数

虽然 Hard Sigmoid 函数非常适合构建分段线性曲线，但直接使用可能会带来复杂性。因此，可以使用 Sigmoid 函数来近似 Hard Sigmoid 函数。

Sigmoid 函数的表达式为：

$\frac{c}{1 + e^{-(b + wx_1)}}$

其中：

( x₁ ) 为输入变量。
( y ) 为输出。
( b )、( w )、( c ) 为可调参数。

可以通过调整 Sigmoid 函数的参数 ( b )、( w ) 和 ( c ) 来生成不同形状的 Sigmoid 函数。这些参数的作用分别如下：

( w ): 改变斜率，调整 Sigmoid 函数的坡度。
( b ): 改变偏移量，左右平移 Sigmoid 函数。
( c ): 调整 Sigmoid 函数的高度。

特点：

当 ( x₁ ) 很大时，( y ) 趋近于 ( c )。
当 ( x₁ ) 很小时，( y ) 趋近于 0。

通过调整这些参数，可以生成不同的 Sigmoid 函数，并将它们组合起来，从而逼近 Hard Sigmoid 函数或其他分段线性函数。由于分段线性函数可以用来近似各种连续函数，这一组合方法非常有效。
使用 Sigmoid 逼近 Hard Sigmoid

组合多个 Sigmoid 函数逼近复杂函数

设想有一个函数 ( y ) 是多个 Sigmoid 函数的加和，如下式所示：

$\sum_{i} c_i \sigma(b_i + w_i x_1)$

其中，每一个 $\sigma(b_i + w_i x_1)$ 代表一个 Sigmoid 函数，且 ( c_i )、( b_i )、( w_i ) 是未知参数。

通过调节这些参数，可以生成不同的 Sigmoid 函数，再将它们相加，构成更复杂的红色曲线，从而逼近各种分段线性函数。这一方法不仅限于单一特征 ( x₁ )，还可以扩展至多个特征 ( x_j )，从而生成更加灵活的函数，如下图所示。
在这里插入图片描述

多特征输入与矩阵表示

对于多个特征 ( x_j )（例如前 1 天、2 天和 3 天的观看次数），可以使用矩阵运算来简化表达式：

假设有 3 个特征 ( x₁ )、( x₂ )、( x₃ )，则每个 Sigmoid 函数可以表示为：

$r_1 = b_1 + w_{11}x_1 + w_{12}x_2 + w_{13}x_3$
$r_2 = b_2 + w_{21}x_1 + w_{22}x_2 + w_{23}x_3$
$r_3 = b_3 + w_{31}x_1 + w_{32}x_2 + w_{33}x_3$

将这些表达式用矩阵表示，可以简化为：

$\mathbf{r} = \mathbf{b} + \mathbf{W} \mathbf{x}$

其中，r 是结果向量，b 是偏移向量，W 是权重矩阵，x 是输入特征向量。

通过 Sigmoid 函数对 r 进行非线性变换，我们得到：

$\mathbf{a} = \sigma(\mathbf{r})$

最后，函数 ( y ) 可以表示为：

$\mathbf{c}^T \mathbf{a}$

其中，c 是权重向量，( b ) 是偏移量。通过这种方式，可以将多个 Sigmoid 函数叠加起来，构成更加灵活的逼近函数。
接下来， W , b , c^T , b 是未知参数。把这些东西通通拉直，“拼”成一个很长的向量，把 W 的每一行或者是每一列拿出来，把 W 的每一列或每一行“拼”成一个长的向量，把b , c^T , b"拼" 上来，这个长的向量用 θ 来表示。所有的未知的参数，一律统称 θ。

参数的优化与梯度下降

定义损失。之前是 L(w, b)，现在直接用 θ 来统设所有的参数，所以损失函数就变成 L(θ)。损失函数能够判断 θ 的好坏，其计算方法跟刚才只有两个参数的时候是一样的。
在优化过程中，我们需要找到能够使损失函数最小的参数集合 θ。这些参数可以包括权重矩阵 W、偏移向量 b 以及其他相关的参数。下面是优化的过程：

1.优化参数向量 θ

在前面的步骤中，通过调整 Sigmoid 函数的参数生成了逼近复杂函数的模型。接下来的任务是优化参数向量 θ，使得损失函数 **L(θ)**最小化。最优的参数向量称为 θ^*。

参数向量 θ 表示为：

$\theta = \begin{bmatrix} \theta_1 \\ \theta_2 \\ \theta_3 \\ \vdots \end{bmatrix}$

其中，θ 的维数取决于模型中参数的数量。

2. 初始化参数

优化过程通常从一个随机初始化的参数向量θ₀ 开始。这个初始向量是优化过程的起点。

3. 计算损失函数的梯度

接下来，需要计算损失函数 L(θ) 对每个参数的梯度，以确定在参数空间中的更新方向。梯度向量 ( g ) 表示为：

$\nabla L(\theta_0)$

具体展开为：

$\begin{bmatrix} \frac{\partial L}{\partial \theta_1} \bigg|_{\theta=\theta_0} \\ \frac{\partial L}{\partial \theta_2} \bigg|_{\theta=\theta_0} \\ \vdots \end{bmatrix}$

梯度向量 ( g ) 的每个分量表示损失函数 ( L ) 对应参数 θ_i 的偏导数。这些偏导数指示了各参数如何调整才能最大程度地减少损失。

4. 更新参数

通过梯度 ( g ) ，可以更新参数向量。更新规则为：

$\theta_1 = \theta_0 - \eta g$

其中，( η ) 是学习率（Learning Rate），用于控制参数更新的步长。学习率过大可能导致无法收敛，过小则可能使收敛速度变慢。

假设有 1000 个参数，那么 $\theta_0$ 是一个 1000 维的向量，梯度 ( g ) 也是一个 1000 维的向量。更新后的参数 $\theta_1$ 也是一个 1000 维的向量。更新过程可用以下矩阵形式表达：
在这里插入图片描述

这个更新过程会不断重复，直到参数向量 $\theta$ 收敛，即参数不再显著变化。

5. 梯度下降的迭代过程

梯度下降法是一个迭代的过程。在每次迭代中，先计算当前参数的梯度，然后使用梯度更新参数。更新公式如下：

$\theta_{t+1} = \theta_t - \eta \nabla L(\theta_t)$

这里的 ( t ) 代表当前的迭代次数。通过不断重复这一过程，参数 $\theta$ 将逐步趋向最优值 $\theta^*$ 。

6. 停止条件

梯度下降法通常在以下两种情况下停止：

达到最大迭代次数：设定一个最大迭代次数，达到该次数后停止优化。
梯度足够小：当梯度的范数 ( |g| ) 小于某个预设的阈值时停止。此时，梯度接近 0，意味着参数更新已非常小，模型接近最优解。

7. 超参数选择与调整

梯度下降法中，学习率 $\eta$ 是一个关键超参数，直接影响到模型的收敛速度和最终性能。除了学习率，批量大小也是需要调整的超参数。一般来说，这些超参数需要通过实验和验证来选择。

8.小批量梯度下降与训练回合

在实际应用中，我们通常采用小批量梯度下降（Mini-batch Gradient Descent）方法，将数据集分成多个小批量（batch）进行梯度计算与参数更新。这种方法可以提高训练效率，并且能够更快地找到最优解。

每次参数更新称为一次更新（update），而将整个数据集分批处理完一次称为一个回合（epoch）。批量大小（batch size）和 Sigmoid 函数的个数都是超参数，需根据实际情况进行调整。

通过以上方法，使用多个 Sigmoid 函数叠加并优化参数，我们能够逼近各种复杂的连续函数，并应用于实际问题中。

1.2.2 模型变形

在深度学习模型的设计中，激活函数（activation function）的选择和使用至关重要。可以通过改变激活函数或者调整模型结构来优化模型性能。

ReLU 和 Hard Sigmoid 的关系

Hard Sigmoid 可以被看作是两个修正线性单元(Rectified Linear Unit，ReLU)的组合。ReLU 函数的图像可以表示为一条水平线，然后在某个点转折，形成一个斜坡。它的数学表达式如下：

$\cdot \max(0, b + wx_1)$

其中，max(0, b + wx_1) 表示比较 0 和 b + wx_1 的大小，取较大者作为输出。当 b + wx_1 < 0 时，输出为 0；当 b + wx_1 > 0 时，输出为 b + wx_1。通过调整参数 w, b, c，我们可以改变 ReLU 函数的转折点和斜率。

为了构建 Hard Sigmoid，需要将两个 ReLU 函数叠加。如果我们想要用 ReLU 来代替 Sigmoid 函数，则可以将 Sigmoid 函数替换为：

$max(0, b_i + w_{ij}x_j)$

如下图所示，两个 ReLU 函数的组合能够形成一个 Hard Sigmoid。因此，表示一个 Hard Sigmoid 不止一种方式。在机器学习中，Sigmoid 和 ReLU 都被称为激活函数。
在这里插入图片描述

激活函数的实验与选择

Sigmoid 和 ReLU 是最常见的激活函数。在实际实验中，ReLU 函数往往表现得更好。例如：

当使用线性模型时，在 56 天的数据训练上，损失为 320，而在未见过的数据（如 2021 年的数据）上，损失为 460。
当连续使用 10 个 ReLU 作为模型，结果与线性模型差不多。
当使用 100 个 ReLU 作为模型时，训练数据上的损失从 320 降至 280。这是因为 100 个 ReLU 能生成更复杂的曲线，从而降低损失。在测试数据上的表现也有所改善。