深度学习-损失函数

Carrie_Lei

已于 2024-09-06 19:50:13 修改

阅读量984

点赞数 14

分类专栏：深度学习文章标签：深度学习人工智能

于 2024-09-06 19:47:25 首次发布

本文链接：https://blog.csdn.net/finly4599/article/details/141967871

版权

深度学习专栏收录该内容

31 篇文章 0 订阅

订阅专栏

深度神经网络的损失函数（Loss Function）用于衡量模型的预测结果与真实值之间的差距，是模型优化过程中最关键的部分之一。选择合适的损失函数可以帮助模型更快、更准确地收敛到最佳状态。不同任务类型（如回归、分类、生成任务等）会使用不同的损失函数。

1. 回归问题的损失函数

在回归任务中，模型的目标是预测一个连续的数值。常用的损失函数有：

均方误差（Mean Squared Error, MSE）: 计算预测值和真实值之间差值的平方和的平均值。
$\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$
在回归任务中，这个损失函数非常常见，因为它对大误差更敏感。
平均绝对误差（Mean Absolute Error, MAE）: 计算预测值和真实值之间差值的绝对值和的平均值。
$\frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|$
相比 MSE，MAE 对异常值（Outliers）更不敏感。
Huber 损失函数: 结合了 MSE 和 MAE 的优点，当误差较小时使用 MSE，误差较大时使用 MAE，从而在对异常值的鲁棒性上比 MSE 更好。
$L_\delta(y, \hat{y}) = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{if } |y - \hat{y}| \leq \delta \\ \delta(|y - \hat{y}| - \frac{1}{2}\delta) & \text{otherwise} \end{cases}$

2. 分类问题的损失函数

分类任务的目标是预测某个类的概率或标签。常见的损失函数有：

交叉熵损失（Cross-Entropy Loss）: 通常用于分类问题，特别是多分类任务。它衡量的是预测的概率分布和实际标签分布之间的距离。
- 对于 二分类问题，用 二元交叉熵损失：
  $\frac{1}{n} \sum_{i=1}^n [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]$
- 对于 多分类问题，用 多类交叉熵损失：
  $\frac{1}{n} \sum_{i=1}^n \sum_{c=1}^C y_{i,c} \log(\hat{y}_{i,c})$
  其中 ( C ) 是类别数，( $y_{i,c}$ ) 是类 ( c ) 的真实标签（one-hot 编码）。
KL 散度（Kullback-Leibler Divergence, KL-Divergence）: 衡量两个概率分布之间的差异，用于当你希望预测的分布与目标分布不同而又有一定相似性时。
$D_{KL}(P||Q) = \sum_{i} P(i) \log\frac{P(i)}{Q(i)}$
这里 ( P ) 是目标分布，( Q ) 是模型的预测分布。

3. 生成模型的损失函数

在生成模型中，如自编码器、生成对抗网络（GAN），损失函数有特定的设计：

均方误差（MSE）/均方重建误差: 自编码器中用于衡量重建后的输出与输入的差距。
对抗损失（Adversarial Loss）: 在 GAN 中，生成器的损失函数尝试最大化判别器认为生成数据是“真实”的概率，判别器则试图将真实数据和生成数据区分开。
$L_G = - \log(D(G(z)))$
$L_D = - \left[\log(D(x)) + \log(1 - D(G(z)))\right]$
这里 ( D ) 是判别器，( G ) 是生成器，( z ) 是噪声向量，( x ) 是真实样本。

4. 正则化项

除了直接的损失函数，还可以在损失函数中加入 正则化项，以防止过拟合：

L1 正则化: 限制模型的参数，使模型变得更加稀疏。
$\lambda \sum |w|$
L2 正则化（权重衰减）: 限制模型的权重，防止过拟合。
$\lambda \sum w^2$

5. 代码示例：使用交叉熵损失和 L2 正则化

import tensorflow as tf
from tensorflow.keras import layers, models

# 创建模型
model = models.Sequential([
    layers.Dense(128, activation='relu', input_shape=(input_dim,)),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')  # 用于多分类
])

# 编译模型，使用交叉熵损失和L2正则化
model.compile(optimizer='adam', 
              loss='categorical_crossentropy',  # 多分类交叉熵
              metrics=['accuracy'])

# 训练模型
history = model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_val, y_val))