【Datawhale X 李宏毅苹果书 AI夏令营】学习笔记：《深度学习详解》1.2 线性模型

最新推荐文章于 2024-10-06 00:07:08 发布

大家好我是黄贤真

最新推荐文章于 2024-10-06 00:07:08 发布

阅读量303

点赞数 4

文章标签：学习笔记深度学习

本文链接：https://blog.csdn.net/2403_86986123/article/details/141687222

版权

在深度学习中，线性模型是最基础的模型之一，它通过一个简单的线性方程来预测输出。典型的线性模型形式为 y=b+wxy = b + wxy=b+wx，其中 www 和 bbb 是需要通过训练数据来学习的参数。线性模型的目标是找到一组最优的 www 和 bbb，使得预测值与真实值之间的误差最小。

梯度下降法是优化线性模型参数的关键方法。通过计算损失函数 LLL 对参数 www 和 bbb 的偏导数，我们可以不断调整 www 和 bbb 的值，使得损失函数的值逐渐减小，从而找到最优的参数。这一过程在深度学习框架（如PyTorch）中通常由自动微分机制实现。

在线性模型的基础上，通过增加更多的输入变量（特征）可以得到多变量线性模型。改进后的模型形式为：

y=b+∑j=17wjxjy = b + \sum_{j=1}^{7} w_j x_jy=b+∑j=17wjxj

其中，xjx_jxj 代表前7天的观看次数。这种模型考虑了更多历史信息，能够在训练数据上得到更好的结果，减少了损失。

虽然线性模型简单且有效，但它有明显的局限性。例如，当 xxx 和 yyy 之间存在非线性关系时，线性模型无法捕捉到这种复杂的关系。为了解决这个问题，可以使用分段线性曲线或其他更复杂的模型来逼近非线性关系。

为了增加模型的灵活性，可以使用Sigmoid或ReLU等非线性激活函数。这些函数可以帮助模型捕捉到输入与输出之间的非线性关系。ReLU函数因其计算简单且能有效缓解梯度消失问题，成为深度学习中的常用激活函数。

通过堆叠多个层（包含激活函数的线性变换）可以构建神经网络。深度神经网络通过多个隐藏层可以学到更复杂的特征，具有更强的表达能力。现代深度学习网络如VGG、GoogleNet等，通过增加层数显著提升了模型性能。

在训练深度学习模型时，常会遇到过拟合问题，即模型在训练数据上表现很好，但在测试数据上表现较差。为避免过拟合，通常在模型复杂度和泛化能力之间做出平衡。例如，在某些情况下，选择一个较浅的模型可能比更深的模型表现更好。

深度学习的训练过程通常包括三个步骤：

通过不断调整模型的结构、优化算法以及训练策略，深度学习模型的性能可以不断提升。

本节主要介绍了线性模型的基础知识及其在深度学习中的应用。虽然线性模型简单且有效，但面对复杂的非线性关系时，其表现可能不足。因此，使用分段线性模型、激活函数以及深度神经网络等方法，可以提升模型的表达能力，帮助捕捉更复杂的数据模式。

关注