Datawhale X 李宏毅苹果书 AI夏令营 1.2 线性模型

最新推荐文章于 2024-09-27 17:31:02 发布

Jay_Ruan

最新推荐文章于 2024-09-27 17:31:02 发布

阅读量630

点赞数 8

文章标签：人工智能线性回归深度学习机器学习

本文链接：https://blog.csdn.net/Jay_Ruan/article/details/141756440

版权

1.1 初始模型的表现
- 公式: $y = b + wx_1$
- 应用: 使用2017至2020年的数据，进行历史数据上的误差计算。
- 误差分析: 预测误差为480，表明模型在历史数据上具有一定的预测能力。
1.2 模型的时间序列预测
- 预测过程: 使用2020年12月31日的数据开始，连续预测至2021年2月14日。
- 误差指标: 2021年的平均每日误差约为580到600人次。
- 观察结果: 模型基本上将前一天的数据直接用于预测次日，造成了预测上的滞后。

2.1 发现周期性
- 现象: 数据显示每7天有明显的观看人次下降，尤其是周五和周六。
- 模型调整: 提出新模型考虑7天的周期性数据。
2.2 新模型公式
- 公式: $\sum_{j=1}^{7} w_j x_j$
- 权重解释: $x_j$ 表示第j天的观看人次， $w_j$ 是对应的权重。
- 性能提升: 使用新模型后，训练数据上的误差从480降至380，未知数据的误差从580降至490。

3.1 参数的最优化
- 表1.1展示: 最优参数值示例如 $w_1 = 0.79$ ，其中 $w_1$ 对应当天与次日数据关系最大。
- 权重分析: 负权重（如 $w_2, w_4, w_5$ ）表示某些历史日对未来观看人次有负影响。
3.2 扩展时间窗口
- 28天模型: 考虑到一个月的数据，误差进一步减少到330（训练数据上）。
- 56天模型: 在训练数据上误差最低为320，但在未知数据上误差没有改善，仍为460，显示出模型对新数据的泛化能力有限。

4.1 线性模型的局限性
- 问题: 线性模型无法捕捉更复杂的非线性关系，如周期性变化。
- 改进方向: 引入非线性元素如Sigmoid函数和ReLU（修正线性单元）以增加模型复杂度。
4.2 深度学习的引入
- 层级增加: 探索通过增加更多层来处理复杂数据模式。
- 长期目标: 通过深度学习模拟更深层次的人脑网络结构，使用大量层次处理高级认知任务。

5.1 选择合适的模型
- 模型选择: 基于在未知数据上的表现选择模型，关注模型的泛化能力。
- 过拟合问题: 注意避免模型在训练数据上过度优化而忽视未知数据的预测。
5.2 实用策略
- 训练策略: 通过反向传播和梯度下降方法优化模型。
- 业界应用: 模型验证通过跨时间验证其稳健性，确保在实际应用中的可靠性。

线性模型的基本限制
- 简单线性关系: 线性模型 $y = b + wx_1$ 假设随着 $x_1$ （前一天的观看次数）的增加， $y$ （次日的观看次数）也线性增加。
- 实际关系的复杂性: 现实情况可能在某些观看次数阈值下不遵循线性增长，可能存在阈值以上观看次数反而导致减少的情况。
模型偏差:
- 定义: 线性模型无法适应除线性增长外的关系，这种从模型本身来源的限制称为模型的偏差。

理论构造:
- 分段线性曲线：通过连接多个线性段构建更复杂的函数，以逼近真实世界中的非线性关系。
- 构造方法：使用硬Sigmoid（Hard Sigmoid）函数，该函数在特定的输入值范围内保持恒定，然后在其他范围内线性变化。
曲线的组成:
- 常数项: 设定常数项等于曲线与 $x$ 轴的交点，使得整体曲线在没有任何输入激活时有一个基础输出。
- 组合方法: 将多个硬Sigmoid函数组合，调整各个函数的斜率和转折点，以模拟更复杂的真实世界现象。

逼近连续曲线:
- 分段逼近法: 通过多个精细的分段来逼近一个连续的曲线，这种方法在数学和工程中常用于处理复杂模型。
- 选择分段点: 分段点的选择关键在于捕捉数据的重要转折，从而最小化逼近误差。

调整参数:
- 参数调整: 改变每个Sigmoid函数中的 $w$ （权重）， $b$ （偏置）和 $c$ （输出缩放）以改变曲线形状。
- 优化目标: 通过调整这些参数，使模型能够更好地适应数据中的非线性特征，从而减少预测误差。

模型的实用性:
- 增加模型复杂度: 引入非线性元素如Sigmoid可以让模型捕捉更复杂的数据模式。
- 灵活性和应用范围: 这种方法提高了模型的灵活性，使其能够适应各种不同的数据集和预测需求。

分段线性曲线的引入标志着从简单线性模型向更复杂的、能够捕捉数据中非线性趋势的模型的转变，是深度学习和机器学习中常见的一种提升模型性能的策略。

基础概念:
- Hard Sigmoid 和 ReLU (修正线性单元) 之间的关系是核心，说明了简单的线性模型是如何通过组合不同的基本函数来模拟更复杂的行为。
- ReLU 的公式 $\times \max(0, b + wx_1)$ 描述了如何根据输入调整输出，使模型能够在某些情况下激活（当输入大于0时），在其他情况下不激活（当输入小于或等于0时）。
模型变形策略:
- 堆叠 ReLU: 通过将多个 ReLU 层叠加来构建更复杂的函数形式，模拟硬Sigmoid行为。这种方法在实践中被证明可以通过简单堆叠提升模型性能，尤其在深度学习中表现突出。
- 实验结果:
  - 使用多个 ReLU: 实验表明，使用较多的 ReLU 单元（例如100个）可以显著降低训练损失，从320降至280，显示出通过增加模型复杂性可以更精确地拟合数据。
  - 层次深度：更多层次的实验（如使用1000个ReLU）表明，尽管在训练数据上损失进一步降低，但在未见过的数据上损失未改变，这暗示过拟合的可能。

超参数的作用:
- 批量大小和网络层次：批量大小和网络层数是调整网络性能的关键超参数，它们直接影响模型训练的效率和有效性。
- 数据分批处理: 在梯度下降优化过程中，数据被分批处理，每批处理一小部分数据。这不仅减少了内存的压力，也可能提高优化的质量。

梯度下降和参数更新:
- 梯度计算: 对于每个参数 $\theta$ ，计算其对损失函数 $L(\theta)$ 的影响，即梯度。
- 参数更新: 使用梯度和学习率 $\eta$ 更新参数，新的参数 $\theta_{\text{new}} = \theta_{\text{old}} - \eta \times \text{gradient}$ ，通过这种方式逐步逼近最优解。