知识蒸馏中的温度参数 T（Temperature）的作用

彬彬侠

于 2025-03-14 10:48:56 发布

阅读量1k

点赞数 36

分类专栏：大模型文章标签： Temperature 温度参数知识蒸馏 Distillation pytorch python

本文链接：https://blog.csdn.net/u013172930/article/details/146239521

版权

大模型专栏收录该内容

93 篇文章

订阅专栏

知识蒸馏中的温度参数 $T$ （Temperature）的作用

1. 什么是温度参数 $T$ ？

在 知识蒸馏（Knowledge Distillation, KD） 过程中，教师模型的输出通常是 一个概率分布（通过 softmax 计算得到）。
温度参数 $T$ 控制 softmax 的平滑程度，使得学生模型可以更好地学习 教师模型的知识。

在标准的 softmax 函数 中，类别 $i$ 的概率计算如下：
$P_i = \frac{e^{z_i}}{\sum_j e^{z_j}}$
其中：

$z_i$ 是第 $i$ 类的 logits（模型的原始输出）。
计算得到的 概率分布 通常是 one-hot 形式，即 正确类别的概率接近 1，而其他类别接近 0。

当使用 温度参数 $T$ 时，softmax 公式变为：
$P_i = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}$
其中：

$T > 1$ ：增加温度，使得 softmax 分布变得 更平滑，所有类别的概率差距减小。
$T < 1$ ：降低温度，使得 softmax 分布 更尖锐，接近 one-hot 分布。

2. 温度参数 $T$ 在知识蒸馏中的作用

在知识蒸馏中，温度参数 $T$ 主要用于 调整教师模型的 softmax 输出，使得学生模型更容易学习教师模型的知识。它的作用包括：

2.1 让教师模型提供更丰富的信息

当 $T > 1$ （例如 $T = 3$ 或 $T = 5$ ），softmax 输出会变得更平滑：

这意味着 正确类别的概率不会过于极端（接近 1），错误类别的概率也不会过于接近 0。
使得学生模型能够 学习到教师模型的隐藏知识（即不同类别之间的关系）。

示例：

类别	无温度（ $T = 1$ ）	$T = 3$ （更平滑）
猫（正确类别）	0.98	0.75
狗	0.01	0.15
兔子	0.001	0.10

$T = 1$ ：正确类别（猫）概率 接近 1，错误类别（狗、兔子）概率几乎 为 0，使得学生模型难以学习其他类别的信息。
$T = 3$ ：错误类别（狗、兔子）仍然有一定概率，这样学生模型可以学到 狗和兔子与猫的相似性，从而提高泛化能力。

2.2 避免学生模型过度拟合

如果 不使用温度 $T$ ，学生模型可能会 过度拟合硬标签（one-hot 形式），导致泛化能力下降。
通过引入 $T > 1$ ，可以 让学生模型学习更柔和的类别分布，而不是仅仅关注正确答案，从而提高泛化能力。

2.3 解决数据噪声问题

在某些任务（如语音识别、文本分类）中，训练数据可能 带有噪声。
高温度 $T$ 可以 减少数据噪声的影响，使得学生模型更加鲁棒。

3. 选择合适的温度 $T$

如何选择合适的 温度 $T$ 取决于任务：

$T = 1$ ：无蒸馏效果，仅使用普通的交叉熵损失（CE Loss）。
$T > 1$ （如 $T = 3$ 或 $T = 5$ ）：适用于大多数知识蒸馏任务，帮助学生模型学习更丰富的信息。
$\gg 1$ （如 $T = 10$ ）：可能会导致过度平滑，信息损失过大，影响学习效果。

一般经验：

NLP 任务（如 BERT 蒸馏）： $T = 2$ ~ $T = 5$ 。
计算机视觉（如 ResNet 蒸馏）： $T = 3$ ~ $T = 10$ 。

4. 代码示例（PyTorch）

在 PyTorch 知识蒸馏中，温度 $T$ 被用于计算 KL 散度损失（Kullback-Leibler Divergence Loss）：

import torch
import torch.nn as nn
import torch.optim as optim

# 定义温度超参数
T = 3.0

# 交叉熵损失（用于真实标签）
ce_loss = nn.CrossEntropyLoss()

# KL 散度损失（用于软标签）
kl_loss = nn.KLDivLoss(reduction="batchmean")

# 定义知识蒸馏损失函数
def knowledge_distillation_loss(student_logits, teacher_logits, labels, alpha=0.5):
    # 计算交叉熵损失（普通训练损失）
    loss_ce = ce_loss(student_logits, labels)

    # 计算 KL 散度损失（蒸馏损失）
    loss_kd = kl_loss(
        nn.functional.log_softmax(student_logits / T, dim=1),
        nn.functional.softmax(teacher_logits / T, dim=1)
    ) * (T * T)  # 乘以 T^2 以平衡梯度大小

    # 综合损失
    return alpha * loss_ce + (1 - alpha) * loss_kd

# 假设 student_model 和 teacher_model 已经初始化
optimizer = optim.Adam(student_model.parameters(), lr=1e-3)

# 训练循环
for epoch in range(10):
    optimizer.zero_grad()
    
    # 获取模型输出
    student_logits = student_model(input_data)
    teacher_logits = teacher_model(input_data).detach()  # 教师模型的输出

    # 计算蒸馏损失
    loss = knowledge_distillation_loss(student_logits, teacher_logits, labels)
    
    # 反向传播
    loss.backward()
    optimizer.step()
    
    print(f"Epoch {epoch}, Loss: {loss.item()}")