【Datawhale X 李宏毅苹果书 AI夏令营】Task 2《深度学习详解》- 1.2 了解线性模型

最新推荐文章于 2024-10-06 21:45:11 发布

乐下星。

最新推荐文章于 2024-10-06 21:45:11 发布

阅读量966

点赞数 30

分类专栏： AI学习文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/2402_84069573/article/details/141729680

版权

11 篇文章 0 订阅

订阅专栏

线性模型的基本概念

线性模型是将输入的特征 $x$ 乘上一个权重，再加上一个偏置就得到预测结果的模型，例如 $y = b + wx_1$ 。

梯度下降：通过计算损失函数对参数的微分，来更新参数，以找到最优的 $w$ 和 $b$ 。在深度学习框架中，如PyTorch，微分的计算由程序自动完成。
- 例如，对于初始值 $w^0$ 和 $b^0$ ，更新公式为：
  $\begin{gathered} w^{1} \leftarrow w^{0} - \left.\eta \frac{\partial L}{\partial w}\right|_{w = w^{0}, b = b^{0}} \\ b^{1} \leftarrow b^{0} - \left.\eta \frac{\partial L}{\partial b}\right|_{w = w^{0}, b = b^{0}} \end{gathered}$
- 不断更新 $w$ 和 $b$ ，期待找到最优的 $w^*$ 和 $b^*$ 。
- 如图1.5所示，通过梯度下降计算，得到的最优值 $w^* = 0.97$ ， $b^* = 100$ ，在训练数据上的损失 $L(w^*, b^*) = 480$ 。
考虑更多天数的改进：
- 最初的模型只考虑前一天的观看人次，预测效果不理想，因为数据存在周期性，每隔7天会有两天观看人数特别少。
- 改进后的模型考虑前7天的观看人次，即 $\sum_{j = 1}^{7} w_{j} x_{j}$ ，在训练数据上的损失降低到380。
- 进一步考虑前28天的观看人次，即 $\sum_{j = 1}^{28} w_{j} x_{j}$ ，训练数据上的损失为330，在2021年没看过的数据上损失为460。
- 考虑56天的观看人次，即 $\sum_{j = 1}^{56} w_{j} x_{j}$ ，训练数据上损失为320，没看过的数据上损失还是460，考虑更多天无法再降低损失。

局限性：线性模型过于简单， $x_1$ 跟 $y$ 可能中间有比较复杂的关系，例如当 $x_1$ 小于某一个数值时，前一天的观看次数跟隔天的观看次数成正比；当 $x_1$ 大于一个数值时，隔天观看次数会变少，但线性模型永远无法模拟这种复杂关系，这称为模型的偏差。
改进方法 - 分段线性曲线：
- 分段线性曲线可以看作是一个常数加上一堆Hard Sigmoid函数，通过调整不同的Sigmoid函数的参数，可以逼近各种不同的分段线性函数，进而逼近任何连续的曲线。
- 例如，红色曲线可以表示为 $\sum_{i} c_{i} \sigma(b_{i} + w_{i} x_{1})$ ，其中 $\sigma$ 为Sigmoid函数。
- 可以用多个特征代入不同的 $c$ ， $b$ ， $w$ ，组合出更有灵活性的函数。

激活函数：
- Hard Sigmoid可以看作是两个修正线性单元（ReLU）的加总，ReLU的公式为 $c * max(0, b + wx_1)$
- Sigmoid或ReLU称为激活函数，常见的激活函数还有其他，但Sigmoid和ReLU最常见。
- 实验结果表明，使用100个ReLU作为模型，在训练数据上的损失从320降到280，在测试数据上也有改善；使用1000个ReLU，训练数据上损失更低，但在没看过的数据上损失没有变化。
模型改进：
- 从 $x$ 变成 $a$ ，即把 $x$ 乘上 $w$ 加 $b$ ，再通过激活函数（如Sigmoid或ReLU）得到 $a$ ，同样的事情反复多做几次，增加更多的未知参数。
- 例如，每次加100个ReLU，输入特征为56天前的数据，做两次损失从280降到180，做3次从180降到140，在没看过的数据上也从430降到了380。
- 但增加层数可能会导致过拟合，如4层在训练数据上损失低，但在没看过的数据上表现不如3层。

五、机器学习框架

训练过程包括三个步骤：
- 写出含有未知数 $\theta$ 的函数 $f_{\theta}(x)$ ，输入特征为 $x$ 。
- 定义损失函数(L)，判断参数的好坏。
- 解优化问题，找到使损失最小的 $\theta^*$ ，即 $\theta^* = \underset{\theta}{arg min } L$ 。
将 $\theta^*$ 带入测试集，输出结果存起来，上传到相关平台（如Kaggle）。