【Datawhale X 李宏毅苹果书 AI夏令营】学习笔记:《深度学习详解》1.2 线性模型

1.2.1 线性模型的基础

在深度学习中,线性模型是最基础的模型之一,它通过一个简单的线性方程来预测输出。典型的线性模型形式为 y=b+wxy = b + wxy=b+wx,其中 www 和 bbb 是需要通过训练数据来学习的参数。线性模型的目标是找到一组最优的 www 和 bbb,使得预测值与真实值之间的误差最小。

1.2.2 梯度下降法

梯度下降法是优化线性模型参数的关键方法。通过计算损失函数 LLL 对参数 www 和 bbb 的偏导数,我们可以不断调整 www 和 bbb 的值,使得损失函数的值逐渐减小,从而找到最优的参数。这一过程在深度学习框架(如PyTorch)中通常由自动微分机制实现。

1.2.3 模型的改进与多变量线性模型

在线性模型的基础上,通过增加更多的输入变量(特征)可以得到多变量线性模型。改进后的模型形式为:

y=b+∑j=17wjxjy = b + \sum_{j=1}^{7} w_j x_jy=b+∑j=17​wj​xj​

其中,xjx_jxj​ 代表前7天的观看次数。这种模型考虑了更多历史信息,能够在训练数据上得到更好的结果,减少了损失。

1.2.4 分段线性曲线与模型局限性

虽然线性模型简单且有效,但它有明显的局限性。例如,当 xxx 和 yyy 之间存在非线性关系时,线性模型无法捕捉到这种复杂的关系。为了解决这个问题,可以使用分段线性曲线或其他更复杂的模型来逼近非线性关系。

1.2.5 Sigmoid 函数与 ReLU 函数

为了增加模型的灵活性,可以使用Sigmoid或ReLU等非线性激活函数。这些函数可以帮助模型捕捉到输入与输出之间的非线性关系。ReLU函数因其计算简单且能有效缓解梯度消失问题,成为深度学习中的常用激活函数。

1.2.6 深度学习与神经网络

通过堆叠多个层(包含激活函数的线性变换)可以构建神经网络。深度神经网络通过多个隐藏层可以学到更复杂的特征,具有更强的表达能力。现代深度学习网络如VGG、GoogleNet等,通过增加层数显著提升了模型性能。

1.2.7 过拟合与模型选择

在训练深度学习模型时,常会遇到过拟合问题,即模型在训练数据上表现很好,但在测试数据上表现较差。为避免过拟合,通常在模型复杂度和泛化能力之间做出平衡。例如,在某些情况下,选择一个较浅的模型可能比更深的模型表现更好。

1.2.8 深度学习的优化过程

深度学习的训练过程通常包括三个步骤:

  1. 编写包含未知参数 θ\thetaθ 的模型函数。
  2. 定义损失函数 L(θ)L(\theta)L(θ) 以评估模型的好坏。
  3. 使用优化算法(如梯度下降)来最小化损失函数,从而找到最优参数 θ∗\theta^*θ∗。

通过不断调整模型的结构、优化算法以及训练策略,深度学习模型的性能可以不断提升。

总结

本节主要介绍了线性模型的基础知识及其在深度学习中的应用。虽然线性模型简单且有效,但面对复杂的非线性关系时,其表现可能不足。因此,使用分段线性模型、激活函数以及深度神经网络等方法,可以提升模型的表达能力,帮助捕捉更复杂的数据模式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值