终于把神经网络中的知识蒸馏搞懂了！！

最新推荐文章于 2025-04-12 22:28:56 发布

小马不会过河

最新推荐文章于 2025-04-12 22:28:56 发布

阅读量707

点赞数 8

文章标签：神经网络人工智能深度学习知识图谱学习 vscode 机器学习

本文链接：https://blog.csdn.net/m0_59163425/article/details/145898727

版权

今天给大家分享神经网络中的一个关键知识点，知识蒸馏

知识蒸馏（Knowledge Distillation）是深度学习中一种模型压缩技术，其核心思想是利用一个较大的、性能较强的模型（称为教师模型）来指导一个较小的、轻量级的模型（称为学生模型）进行训练，以提升学生模型的性能，使其在有限的计算资源下仍能达到较优的表现。

基本原理

知识蒸馏的核心思想是让学生模型不仅学习训练数据的真实标签（hard labels），还要学习教师模型提供的软标签（soft labels），即教师模型输出的概率分布。软标签包含了更丰富的信息（例如，各个类别之间的相似度），使得学生模型能够更好地捕捉到数据的潜在结构。

软标签包含了类别之间的概率分布，比如，一张猫的图片，教师模型可能给出猫的概率是0.9，狗是0.05，其他动物更低，这样的分布可能比硬标签 [1,0,0…] 更有信息量，帮助学生模型学习到更多的细节。

通过这种方式，学生模型不仅学习到数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力。

知识蒸馏的步骤

1.训练教师模型

首先需要训练一个性能较好的教师模型（Teacher Model）。

这个模型通常是一个大规模的、计算资源消耗较高的深度学习模型，可能是 ResNet、Transformer 或者 BERT 这样的大型神经网络。

2.生成软标签

使用教师模型对输入数据进行推断，生成软标签，即概率分布。

软标签通常包含了关于类别间相对关系的信息，这些信息对于学生模型的训练至关重要。

3.训练学生模型

学生模型（Student Model）通常是一个较小的、计算高效的神经网络，它的目标是学习教师模型的知识，同时保持较低的计算资源消耗。

在蒸馏过程中，学生模型的训练不仅仅依赖于训练数据的标签，还会依赖于教师模型的输出（软标签）。

通过让学生模型模仿教师模型的输出，学生模型可以在学习到目标类别的同时，也能学习到类别之间的细微差异。

核心原理

知识蒸馏的基本思路是通过最小化学生模型与教师模型输出之间的差距来学习教师模型的知识。

设：

教师模型经过 softmax 后的概率分布为

其中是教师模型在输入上的 logits 输出，T 是温度参数（Temperature）。

学生模型经过 softmax 后的概率分布为

其中是学生模型的 logits 输出。

温度 T 控制 softmax 函数的平滑程度

当时，softmax 变为标准形式。
当时，softmax 变得更平滑，提供更丰富的类别信息。

知识蒸馏的损失函数通常由两部分组成

真实标签的交叉熵损失（Hard Loss）

这里的是 one-hot 真实标签。
蒸馏损失（Distillation Loss）

这里的是教师模型的 softmax 输出，它包含类别间的信息。

完整的目标函数为：

其中是一个超参数，用于平衡两种损失的权重。

知识蒸馏的类别

知识蒸馏有多个变种，主要包括：

离线蒸馏：最常见的方法，先训练好教师模型，然后用其指导学生模型训练。
在线蒸馏：学生和教师模型同时训练，学生模型不断学习教师模型的信息。
自蒸馏：模型自身作为教师，将深层网络的知识蒸馏到浅层部分。
多教师蒸馏：使用多个教师模型指导一个学生模型。

知识蒸馏的优点

模型压缩：通过蒸馏，小模型可以接近大模型的性能，同时减少计算和存储成本。
提升小模型性能：通过从教师模型中提取额外的信息，学生模型能够取得接近或更好的性能，而不需要直接依赖大量数据。
泛化能力：知识蒸馏能够增强小模型的泛化能力，减少过拟合的风险。
鲁棒性提高：知识蒸馏可以帮助学生模型更好地处理数据扰动，提高模型稳健性。

案例分享

下面是一个完整的知识蒸馏的示例代码，使用 PyTorch 训练一个教师模型并将其知识蒸馏到学生模型。

定义教师模型（Teacher Model）：使用一个较大的神经网络。
定义学生模型（Student Model）：使用一个较小的神经网络。
计算蒸馏损失
使用教师模型的 softmax 输出（软标签）。
计算 Kullback-Leibler 散度（KL 散度）。
训练学生模型：结合交叉熵损失和蒸馏损失进行优化。

  
`import torch   import torch.nn as nn   import torch.optim as optim   import torchvision   import torchvision.transforms as transforms   import torch.nn.functional as F      # 设置超参数   BATCH_SIZE = 128   EPOCHS = 5   TEMPERATURE = 4.0  # 温度参数   ALPHA = 0.5  # 交叉熵损失和知识蒸馏损失的权重   LEARNING_RATE = 0.01      # 数据加载   transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])   train_dataset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)   test_dataset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)   train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)   test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)      # 定义教师模型   class TeacherModel(nn.Module):       def __init__(self):           super(TeacherModel, self).__init__()           self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1)           self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)           self.fc1 = nn.Linear(64 * 7 * 7, 128)           self.fc2 = nn.Linear(128, 10)          def forward(self, x):           x = F.relu(self.conv1(x))           x = F.max_pool2d(x, 2)           x = F.relu(self.conv2(x))           x = F.max_pool2d(x, 2)           x = x.view(x.size(0), -1)           x = F.relu(self.fc1(x))           x = self.fc2(x)           return x      # 定义学生模型   class StudentModel(nn.Module):       def __init__(self):           super(StudentModel, self).__init__()           self.conv1 = nn.Conv2d(1, 16, kernel_size=3, padding=1)           self.conv2 = nn.Conv2d(16, 32, kernel_size=3, padding=1)           self.fc1 = nn.Linear(32 * 7 * 7, 64)           self.fc2 = nn.Linear(64, 10)          def forward(self, x):           x = F.relu(self.conv1(x))           x = F.max_pool2d(x, 2)           x = F.relu(self.conv2(x))           x = F.max_pool2d(x, 2)           x = x.view(x.size(0), -1)           x = F.relu(self.fc1(x))           x = self.fc2(x)           return x      # 计算蒸馏损失   def distillation_loss(student_logits, teacher_logits, true_labels, temperature, alpha):       # 计算教师模型和学生模型的 softmax 预测（使用温度参数）       soft_targets = F.log_softmax(teacher_logits / temperature, dim=1)       soft_predictions = F.log_softmax(student_logits / temperature, dim=1)          # 计算 KL 散度损失       kl_loss = F.kl_div(soft_predictions, soft_targets, reduction='batchmean') * (temperature ** 2)          # 计算标准交叉熵损失       ce_loss = F.cross_entropy(student_logits, true_labels)          # 组合损失       return alpha * ce_loss + (1 - alpha) * kl_loss      # 训练教师模型   def train_teacher():       teacher = TeacherModel().to(device)       optimizer = optim.Adam(teacher.parameters(), lr=LEARNING_RATE)       criterion = nn.CrossEntropyLoss()          for epoch in range(EPOCHS):           teacher.train()           for images, labels in train_loader:               images, labels = images.to(device), labels.to(device)                  optimizer.zero_grad()               outputs = teacher(images)               loss = criterion(outputs, labels)               loss.backward()               optimizer.step()                      print(f"Epoch [{epoch+1}/{EPOCHS}], Loss: {loss.item():.4f}")              torch.save(teacher.state_dict(), "teacher_model.pth")       print("教师模型训练完成并已保存！")       return teacher      # 训练学生模型   def train_student(teacher):       student = StudentModel().to(device)       teacher.eval()  # 设置教师模型为评估模式（不更新梯度）       optimizer = optim.Adam(student.parameters(), lr=LEARNING_RATE)          for epoch in range(EPOCHS):           student.train()           for images, labels in train_loader:               images, labels = images.to(device), labels.to(device)                  optimizer.zero_grad()               student_outputs = student(images)               teacher_outputs = teacher(images).detach()  # 关闭教师模型的梯度计算                              loss = distillation_loss(student_outputs, teacher_outputs, labels, TEMPERATURE, ALPHA)               loss.backward()               optimizer.step()                      print(f"Epoch [{epoch+1}/{EPOCHS}], Loss: {loss.item():.4f}")          torch.save(student.state_dict(), "student_model.pth")       print("学生模型训练完成并已保存！")       return student      # 评估模型   def evaluate_model(model):       model.eval()       correct = 0       total = 0       with torch.no_grad():           for images, labels in test_loader:               images, labels = images.to(device), labels.to(device)               outputs = model(images)               _, predicted = torch.max(outputs, 1)               total += labels.size(0)               correct += (predicted == labels).sum().item()          print(f'模型准确率: {100 * correct / total:.2f}%')      # 运行   device = torch.device("cuda"if torch.cuda.is_available() else"cpu")      # 训练教师模型   teacher_model = train_teacher()      # 训练学生模型（使用知识蒸馏）   student_model = train_student(teacher_model)      # 评估教师和学生模型   print("\n教师模型测试集准确率：")   evaluate_model(teacher_model)   print("\n学生模型测试集准确率：")   evaluate_model(student_model)   `

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述