知识蒸馏 Knowledge Distillation（在tinybert的应用）

不当菜鸡的程序媛

已于 2023-12-25 20:42:35 修改

阅读量550

点赞数 6

分类专栏：学习记录文章标签：人工智能

于 2023-12-25 20:27:58 首次发布

本文链接：https://blog.csdn.net/vivi_cin/article/details/135208438

版权

学习记录专栏收录该内容

136 篇文章

订阅专栏

蒸馏（Knowledge Distillation）是一种模型压缩技术，通常用于将大型模型的知识转移给小型模型，以便在保持性能的同时减小模型的体积和计算开销。这个过程涉及到使用一个大型、复杂的模型（通常称为教师模型）生成的软标签（概率分布），来训练一个小型模型（通常称为学生模型）。

具体而言，对于分类问题，教师模型生成的概率分布可以看作是对每个类别的软标签，而学生模型通过学习这些软标签来进行训练。这种方式相比直接使用硬标签（即真实的标签）进行训练，通常能够提供更多的信息，帮助学生模型更好地捕捉数据的细节。

以下是使用 TinyBERT 进行蒸馏的简单例子：

1. 引入必要的库和模块：

import torch
import torch.nn as nn
from transformers import BertTokenizer, BertModel, BertForSequenceClassification
from transformers import TinyBertForSequenceClassification, TinyBertTokenizer

2. 加载教师模型和学生模型：

teacher_model = BertForSequenceClassification.from_pretrained('bert-base-uncased')
student_model = TinyBertForSequenceClassification.from_pretrained('prajjwal1/tf-4.0-tinybert')

3. 定义蒸馏损失函数：

class KnowledgeDistillationLoss(nn.Module):
    def __init__(self, temperature=1.0):
        super(KnowledgeDistillationLoss, self).__init__()
        self.temperature = temperature

    def forward(self, outputs, labels, teacher_outputs):
        # 计算蒸馏损失
        loss = nn.KLDivLoss()(nn.functional.log_softmax(outputs / self.temperature, dim=1),
                              nn.functional.softmax(teacher_outputs / self.temperature, dim=1))
        # 添加其他损失项（例如交叉熵损失）
        # loss += ...
        return loss

4. 准备数据和优化器等：

tokenizer = TinyBertTokenizer.from_pretrained('prajjwal1/tf-4.0-tinybert')

# 数据处理和加载等...
# optimizer = ...

5. 进行蒸馏训练（关键）

# 通过数据集获取教师模型的软标签
with torch.no_grad():
    teacher_outputs = teacher_model(input_ids, attention_mask=attention_mask)

# 将数据传递给学生模型进行训练
outputs = student_model(input_ids, attention_mask=attention_mask)
loss = KnowledgeDistillationLoss(temperature=2.0)(outputs.logits, labels, teacher_outputs.logits)

# 反向传播和优化器更新
optimizer.zero_grad()
loss.backward()
optimizer.step()

在上述示例中，KnowledgeDistillationLoss 是一个自定义的损失函数，用于计算蒸馏损失。你可以根据具体情况进行调整和扩展。需要注意的是，蒸馏过程中还可以加入其他损失项，例如交叉熵损失，以更好地引导学生模型的训练。

这个例子是一个简化版本，实际应用可能需要根据具体任务和数据集进行更多的调整和优化。

总结：

TinyBert的训练过程：

1、用通用的Bert base进行蒸馏，得到一个通用的student model base版本；
2、用相关任务的数据对Bert进行fine-tune得到fine-tune的Bert base模型；
3、用2得到的模型再继续蒸馏得到fine-tune的student model base，注意这一步的student model base要用1中通用的student model base去初始化；（词向量loss + 隐层loss + attention loss）
4、重复第3步，但student model base模型初始化用的是3得到的student模型。（任务的预测label loss）

参考：https://github.com/Lisennlp/TinyBert?tab=readme-ov-file