《深度学习详解》第一章笔记

最新推荐文章于 2024-10-02 01:49:36 发布

2301_82300895

最新推荐文章于 2024-10-02 01:49:36 发布

阅读量375

点赞数 5

文章标签：深度学习笔记

本文链接：https://blog.csdn.net/2301_82300895/article/details/141611839

版权

机器学习（Machine Learning, ML）：是一种让机器具备学习能力的技术，其核心目标是找到一个函数来描述数据的规律。

例如，语音识别可以看作一个函数：输入为声音信号，输出为该声音对应的文本内容。机器学习任务的核心是从数据中学习出一个映射关系，即函数。

深度学习（Deep Learning, DL）：是机器学习的一个子领域，利用多层神经网络进行更复杂的函数映射。例如，AlphaGo通过深度学习找到一个函数来决定在围棋棋盘上的落子位置。

1.2 机器学习任务的类型回归（Regression）：目标是预测一个连续的数值，如预测未来某个时间的PM2.5浓度。机器需要找一个函数，其输入为多种相关因素（如温度、湿度等），输出为一个预测的数值。

分类（Classification）：任务是从多个预定义类别中选择一个类别作为输出。例如，垃圾邮件检测是一个二分类问题（垃圾邮件或非垃圾邮件）。

结构化学习（Structured Learning）：目标是生成一个有结构的输出，如生成一段文本、绘制一幅图像。这类任务要求模型不仅要输出一个数值或类别，还需要生成具有特定结构的复杂输出。

1.3 机器学习的三大步骤模型定义（Model Definition）：选择一个带有未知参数的函数作为模型。例如，简单的线性模型可以表示为 y = b + wx1，其中 y 是预测值，x1 是特征，b 和 w 是待优化的参数。

未知参数的函数在机器学习中称为模型（Model），它需要通过数据训练来确定最优的参数。

损失函数定义（Loss Function Definition）：损失函数用于衡量模型预测值与真实值之间的差距，是一个关于模型参数的函数。

常见的损失函数包括：均方误差（Mean Squared Error, MSE）：e = (ŷ - y)^2，反映预测值与真实值的平方差。平均绝对误差（Mean Absolute Error, MAE）：e = |ŷ - y|，反映预测值与真实值的绝对差。

交叉熵（Cross Entropy）：用于分类任务，反映预测分布与真实分布之间的差距。

优化（Optimization）：通过调整模型参数使损失函数最小化的过程。

常用的优化方法是梯度下降（Gradient Descent），它通过计算损失函数相对于每个参数的偏导数（梯度），沿着损失下降的方向调整参数。

1.4 梯度下降法（Gradient Descent）基本原理：选择一个初始点（随机选择），计算该点处的损失函数的梯度。沿着梯度的反方向更新参数：w_new = w_old - η * ∇L，其中 η 是学习率（Learning Rate）。重复这一过程，直到达到损失函数的最小值或满足其他停止条件（如迭代次数上限）。

局部最小值与全局最小值：梯度下降可能会陷入局部最小值（Local Minima），而不是找到损失函数的全局最小值（Global Minima）。解决局部最小值问题的方法包括使用不同的初始点、多次运行算法等。

1.5 模型改进策略线性模型（Linear Model）：只考虑输入特征的线性组合，适合简单的线性关系。缺点是无法表示复杂的非线性关系。

分段线性模型（Piecewise Linear Model）：通过多个线性段组合，能够表示更复杂的关系。使用多个线性函数的拼接来近似非线性函数。

激活函数（Activation Function）：增加模型的非线性能力，使得模型能够学习复杂的非线性关系。常见激活函数有Sigmoid、ReLU（Rectified Linear Unit）。ReLU：f(x) = max(0, x)，更适合深度学习，因为其计算简单，且在正区间导数恒为1，减轻了梯度消失问题。

1.6 深度学习与神经网络（Deep Learning and Neural Networks）神经网络结构：包含输入层（Input Layer）、隐藏层（Hidden Layers）和输出层（Output Layer）。

每一层由多个神经元（Neurons）组成，神经元之间通过权重连接。深度学习模型：通过增加隐藏层的数量（即深度）来提高模型的学习能力。例如，AlexNet有8层，VGG有19层，ResNet达到了152层。

过拟合问题（Overfitting）：当模型在训练集上表现优异，但在测试集上表现不佳时，称为过拟合。

解决方法包括：正则化（Regularization）、增加数据量、使用Dropout等技术。

1.7 实际应用中的挑战模型偏差（Bias）：模型的表达能力不足，无法拟合复杂数据。可以通过增加特征数量、使用更复杂的模型（如深度学习）来增加模型的灵活性。

优化问题（Optimization Issues）：梯度下降可能会遇到优化困难，例如陷入局部最小值。需要使用改进的优化算法，如动量法（Momentum）、自适应学习率算法（如Adam）等。