Datawhale X 李宏毅苹果书 AI夏令营task2 深度学习简介之线性模型、优化技术与神经网络架构

sunset_light

已于 2024-08-30 22:37:12 修改

阅读量804

点赞数 23

文章标签：人工智能深度学习神经网络

于 2024-08-30 22:34:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunset_light/article/details/141728568

版权

深度学习作为机器学习的一个分支，通过构建多层次的神经网络模型，能够学习数据的复杂模式和特征。

1. 线性模型

在线性模型中，我们尝试通过一个或多个输入特征 x 来预测输出 y 。模型的基本形式可以表示为：

y=wx+b

其中，w 代表权重， b 代表偏置项。

1.1 权重与偏置
权重（w）：决定了输入特征对预测结果的贡献程度。
偏置（b）：允许模型输出不必总是通过原点，增加了模型的灵活性。

1.2 损失函数
损失函数是衡量模型预测值与实际值差异的指标。常见的损失函数包括：
均方误差(MSE)：适用于回归问题。
交叉熵损失：常用于分类问题。

2. 梯度下降法

梯度下降法是优化线性模型参数（权重和偏置）的主要算法。

2.1 梯度计算
梯度是损失函数对模型参数的偏导数，指向损失增加最快的方向。计算梯度的目的是找到损失减少最快的方向。

2.2 参数更新
利用梯度和设定的学习率，更新模型参数：

其中，θ 表示模型参数，η 是学习率，∇J 是损失函数 J 对参数 θ 的梯度。

3. 模型的局限性和改进

线性模型在处理复杂数据时存在局限性（无法表述非线性），因此需要引入非线性激活函数。

图 1 线性模型的局限

3.1 分段线性模型
分段线性模型通过组合多个线性函数段来逼近非线性函数，从而增强模型的表达能力。由图1、图2图3可得出，红色线，即分段线性曲线（piecewise linear curve）可以看作是一个常数，再加上诸多蓝色的线性函数组合出来。（通俗类比微积分里无数边形极限逼近圆）

图 2 构建分段线性曲线

图 3 分段曲线逼近连续曲线

3.2 激活函数
激活函数引入非线性，使得模型能够学习和模拟更复杂的数据关系。
Sigmoid：输出值在0和1之间，适用于二分类问题。
ReLU（Rectified Linear Unit）：当输入大于0时输出该值，否则输出0，计算效率高，适用于隐藏层。

4. 神经网络结构

神经网络通过堆叠多个神经元和层构建，以学习数据的复杂特征。

4.1 神经元
神经元是神经网络的基本计算单元，负责接收输入、进行加权求和，并通过激活函数输出结果。

4.2 隐藏层
隐藏层位于输入层和输出层之间，用于提取特征和学习数据的内在表示。隐藏层的数量和神经元的个数是模型设计中的关键超参数。

5. 模型优化和正则化

5.1 过拟合
过拟合发生在模型在训练数据上表现良好，但在未见过的数据上表现差的情况。这通常是因为模型过于复杂，捕捉到了训练数据中的噪声。

5.2 正则化技术
正则化技术通过在损失函数中添加额外的正则项来惩罚模型复杂度，从而提高模型的泛化能力。常见的正则化方法包括：
L1正则化：通过惩罚权重的绝对值来促进稀疏权重。
L2正则化：通过惩罚权重的平方和来限制权重值的大小。

6. 模型选择

6.1 泛化能力
泛化能力是模型对新、未见过数据的处理能力。选择模型时，应优先考虑其泛化能力，而不仅仅是在训练数据上的表现。

6.2 模型复杂度
模型的复杂度由参数数量和层数决定。模型复杂度越高，其拟合能力越强，但也越容易过拟合。设计模型时需要平衡复杂度和泛化能力。

7. 深度学习框架

7.1 自动微分
深度学习框架如PyTorch和TensorFlow提供了自动微分功能，这大大简化了梯度计算的过程，使得研究人员可以更专注于模型设计和优化。

7.2 批量处理
批量处理是将训练数据分成多个小批量进行处理的技术。这种方法可以提高内存利用率和训练效率，同时有助于模型训练的稳定性。

8. 模型训练

8.1 训练数据与测试数据
训练数据：包含输入特征和对应的标签，用于训练模型。
测试数据：用于评估模型性能，通常在模型训练完成后使用，以检验模型的泛化能力。

关注

23
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。