Datawhale X 李宏毅苹果书 AI夏令营task2 深度学习简介之线性模型、优化技术与神经网络架构

深度学习作为机器学习的一个分支,通过构建多层次的神经网络模型,能够学习数据的复杂模式和特征。

1. 线性模型

在线性模型中,我们尝试通过一个或多个输入特征 x 来预测输出 y 。模型的基本形式可以表示为:

y=wx+b

其中,w 代表权重, b 代表偏置项。

1.1 权重与偏置
权重(w):决定了输入特征对预测结果的贡献程度。
偏置(b):允许模型输出不必总是通过原点,增加了模型的灵活性。

1.2 损失函数
损失函数是衡量模型预测值与实际值差异的指标。常见的损失函数包括:
均方误差(MSE):适用于回归问题。
交叉熵损失:常用于分类问题。

2. 梯度下降法

梯度下降法是优化线性模型参数(权重和偏置)的主要算法。

2.1 梯度计算
梯度是损失函数对模型参数的偏导数,指向损失增加最快的方向。计算梯度的目的是找到损失减少最快的方向。

2.2 参数更新
利用梯度和设定的学习率,更新模型参数:

其中,θ 表示模型参数,η  是学习率,∇J 是损失函数 J 对参数 θ 的梯度。

3. 模型的局限性和改进

线性模型在处理复杂数据时存在局限性(无法表述非线性),因此需要引入非线性激活函数。

图 1 线性模型的局限

3.1 分段线性模型
分段线性模型通过组合多个线性函数段来逼近非线性函数,从而增强模型的表达能力。由图1、图2图3可得出,红色线,即分段线性曲线(piecewise linear curve)可以看作是一个常数,再加上诸多蓝色的线性函数组合出来。(通俗类比微积分里无数边形极限逼近圆)

图 2 构建分段线性曲线

图 3 分段曲线逼近连续曲线

3.2 激活函数
激活函数引入非线性,使得模型能够学习和模拟更复杂的数据关系。
Sigmoid:输出值在0和1之间,适用于二分类问题。
ReLU(Rectified Linear Unit):当输入大于0时输出该值,否则输出0,计算效率高,适用于隐藏层。

4. 神经网络结构

神经网络通过堆叠多个神经元和层构建,以学习数据的复杂特征。

4.1 神经元
神经元是神经网络的基本计算单元,负责接收输入、进行加权求和,并通过激活函数输出结果。

4.2 隐藏层
隐藏层位于输入层和输出层之间,用于提取特征和学习数据的内在表示。隐藏层的数量和神经元的个数是模型设计中的关键超参数。

5. 模型优化和正则化

5.1 过拟合
过拟合发生在模型在训练数据上表现良好,但在未见过的数据上表现差的情况。这通常是因为模型过于复杂,捕捉到了训练数据中的噪声。

5.2 正则化技术
正则化技术通过在损失函数中添加额外的正则项来惩罚模型复杂度,从而提高模型的泛化能力。常见的正则化方法包括:
L1正则化:通过惩罚权重的绝对值来促进稀疏权重。
L2正则化:通过惩罚权重的平方和来限制权重值的大小。

6. 模型选择

6.1 泛化能力
泛化能力是模型对新、未见过数据的处理能力。选择模型时,应优先考虑其泛化能力,而不仅仅是在训练数据上的表现。

6.2 模型复杂度
模型的复杂度由参数数量和层数决定。模型复杂度越高,其拟合能力越强,但也越容易过拟合。设计模型时需要平衡复杂度和泛化能力。

7. 深度学习框架

7.1 自动微分
深度学习框架如PyTorch和TensorFlow提供了自动微分功能,这大大简化了梯度计算的过程,使得研究人员可以更专注于模型设计和优化。

7.2 批量处理
批量处理是将训练数据分成多个小批量进行处理的技术。这种方法可以提高内存利用率和训练效率,同时有助于模型训练的稳定性。

8. 模型训练

8.1 训练数据与测试数据
训练数据:包含输入特征和对应的标签,用于训练模型。
测试数据:用于评估模型性能,通常在模型训练完成后使用,以检验模型的泛化能力。


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值