深度学习之神经网络（2）

最新推荐文章于 2024-07-18 00:00:00 发布

青秀山

最新推荐文章于 2024-07-18 00:00:00 发布

阅读量1.7k

点赞数 38

分类专栏：深度学习文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/2301_79320694/article/details/139076738

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

前馈神经网络 (Feedforward Neural Networks, FNN)

信息单向传播，从输入层到隐藏层，最后到输出层

也可以叫前向传播。它由一个或多个层组成，每一层都包含多个神经元，并且各层之间是前向连接的，即信息只能从前一层流向后一层，不会形成回路

损失函数 (Loss Function)

用于评估神经网络的预测与实际值之间的差异，用于指导网络的训练过程

代价函数（Cost Function）或损失函数（Loss Function）是深度学习模型中用于衡量模型预测值与真实值之间差异的函数，是深度学习模型中重要的一部分。而在不同的任务和模型可能会选择不同的代价函数。以下是几种常用的代价函数及其特点：

均方误差（Mean Squared Error, MSE）：

数学表达式: $\mathrm{MSE}=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2}$
求导形式: $\frac{\partial \mathrm{MSE}}{\partial \hat{y}_{i}}=\frac{2}{N}\left(\hat{y}_{i}-y_{i}\right)$
应用场景：回归问题，如房价预测等。
优点：易于计算和理解，对异常值敏感。
缺点：对异常值敏感，可能导致梯度爆炸或梯度消失。

交叉摘损失（Cross Entropy Loss）：
一二分类交叉熵:

数学表达式: $\mathrm{CE}=-\frac{1}{N} \sum_{i=1}^{N}\left(y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right)\right)$
求导形式: $\frac{\partial \mathrm{CE}}{\partial \hat{y}_{i}}=-\frac{1}{N}\left(\frac{y_{i}}{\hat{y}_{i}}-\frac{1-y_{i}}{1-\hat{y}_{i}}\right)$
多分类交叉熵:
数学表达式: $\mathrm{CE}=-\frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{C} y_{i, c} \log \left(\hat{y}_{i, c}\right)$
求导形式: $\frac{\partial \mathrm{CE}}{\partial \hat{y}_{i, c}}=-\frac{1}{N} \frac{y_{i, c}}{\hat{y}_{i, c}}$
应用场景：分类问题，如图像分类、语音识别等。
优点：适用于分类问题，对异常值不敏感，能够更好地衡量分类结果的概率分布。
缺点：相对均方误差计算量较大。

对数损失（Log Loss） :

数学表达式: $\operatorname{LogLoss}=-\frac{1}{N} \sum_{i=1}^{N}\left(y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right)\right)$
求导形式: $\frac{\partial \operatorname{LogLoss}}{\partial \hat{y}_{i}}=-\frac{1}{N}\left(\frac{y_{i}}{\hat{y}_{i}}-\frac{1-y_{i}}{1-\hat{y}_{i}}\right)$
应用场景：二分类问题。
优点：适用于二分类问题，与交叉熵损失类似。
缺点：相对均方误差计算量较大。

Hinge Loss:

数学表达式: $=\frac{1}{N} \sum_{i=1}^{N} \max \left(0,1-y_{i} \cdot \hat{y}_{i}\right)$
求导形式: $\frac{\partial \text { HingeLoss }}{\partial \hat{y}_{i}}=\left\{\begin{array}{ll}-\frac{1}{N} y_{i}, & \text { if } y_{i} \cdot \hat{y}_{i}<1 \\ 0, & \text { otherwise }\end{array}\right.$
应用场景：支持向量机（SVM）等分类问题。
优点：适用于二分类问题，对异常值不敏感
缺点：不适用于概率估计，只适用于线性分类器。

反向传播 (Backpropagation)

一种训练神经网络的算法，通过计算损失函数关于网络参数的梯度，并利用这些梯度来更新网络的权重

基本步骤：

计算输出层的误差： 首先，根据损失函数，计算损失函数对输出的导数，也就是所谓的误差。对于二分类问题，通常使用交叉熵损失函数，因此输出层的误差可以直接计算为预测值与真实标签的差异。
反向传播梯度： 将输出层的梯度向后传播到隐藏层，通过链式法则计算每个隐藏层的梯度。
更新参数： 使用梯度下降或其他优化算法来更新每个参数，以最小化损失函数。更新规则通常形式为：新参数值 = 旧参数值 - 学习率 * 参数梯度。

补充一个小点：

在反向传播中计算每个隐藏层的梯度无疑是难度最大的一个点，如果想手撕神经网络，弄清楚链式法则是关键点。调用深度学习框架的话就可以使用自动求导来简化我们的工作。

梯度下降 (Gradient Descent)

一种优化算法，用于最小化损失函数，通过调整网络的权重来减少预测误差

常用的优化器及其特点：

随机梯度下降（Stochastic Gradient Descent，SGD）：
- 基本思想：在每次迭代中，随机选择一个样本来计算梯度并更新参数。
- 特点：简单易用，但可能会陷入局部最优点，收敛速度较慢。
- 参数：学习率（learning rate）。
带动量的随机梯度下降（SGD with Momentum）：
- 基本思想：在更新参数时，考虑上一次梯度的影响，从而加速收敛。
- 特点：能够加速收敛，减少震荡。
- 参数：学习率（learning rate）、动量（momentum）。
自适应学习率优化器（Adaptive Learning Rate Optimizers）：
- 基本思想：根据梯度的大小动态调整学习率，使得不同参数有不同的学习率。
- 常见的优化器：
  - AdaGrad：根据参数的历史梯度调整学习率，适用于稀疏数据。
  - RMSprop：使用指数加权移动平均来调整学习率，解决了AdaGrad学习率不断减小的问题。
  - Adam：结合了动量和自适应学习率的优点，同时具有较好的性能。
带动态调整学习率的优化器（Learning Rate Schedulers）：
- 基本思想：在训练过程中动态调整学习率，根据模型的训练情况来更新学习率。
- 常见的学习率调度方法：
  - StepLR：在指定的步数上调整学习率。
  - ReduceLROnPlateau：在验证集上表现不佳时减小学习率。
  - CosineAnnealingLR：以余弦函数的形式调整学习率，周期性地降低学习率。
其他优化器：
- Adadelta：对AdaGrad的扩展，解决了学习率不断减小的问题。
- Nadam：Adam优化器的一种变种，结合了Nesterov动量和Adam的优点。

青秀山

关注

38
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
深度学习之神经网络（2）

代价函数（Cost Function）或损失函数（Loss Function）是深度学习模型中用于衡量模型预测值与真实值之间差异的函数，是深度学习模型中重要的一部分。它由一个或多个层组成，每一层都包含多个神经元，并且各层之间是前向连接的，即信息只能从前一层流向后一层，不会形成回路。一种训练神经网络的算法，通过计算损失函数关于网络参数的梯度，并利用这些梯度来更新网络的权重。一种优化算法，用于最小化损失函数，通过调整网络的权重来减少预测误差。用于评估神经网络的预测与实际值之间的差异，用于指导网络的训练过程。
复制链接

扫一扫