知识蒸馏!

研究者在YOLOv8框架下进行了知识蒸馏实验,比较了CWD、MGD、BCKD等不同方法,发现Logits蒸馏中的BCKD在自制数据集上表现优于CWD,特别是单独使用LD在回归分支上提点显著。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

869c357f4596492d926e3d5ce6c4914b.png

09.14        在YOLOv8下的知识蒸馏,目前实验进展,已测试基于特征图的CWD和MGD,对自建数据集均有提点。其中,学生模型YOLOv8n,教师模型YOLOv8s,CWD有效提点1.01%,MGD提点0.34%。同时,支持对自己的改进模型进行知识蒸馏。

09.16        框架大改,加入Logits蒸馏。支持Logits蒸馏和特征蒸馏同时或者分别进行。

目前支持如下方法:

Logits蒸馏:最新的BCKD(Bridging Cross-task Protocol Inconsistency for Distillation in Dense Object Detection)https://arxiv.org/pdf/2308.14286.pdf,后续将加入其它Logits蒸馏方法。

特征蒸馏:CWD(Channel-wise Knowledge Distillation for Dense Prediction)https://arxiv.org/pdf/2011.13256.pdf;MGD(Masked Generative Distillation)https://arxiv.org/abs/2205.01529;FGD(Focal and Global Knowledge Distillation for Detectors)https://arxiv.org/abs/2111.11837;FSP(A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learning)https://openaccess.thecvf.com/content_cvpr_2017/papers/Yim_A_Gift_From_CVPR_2017_paper.pdf

。后续将加入其它特征蒸馏方法。

09.17        BCKD实验结果,自制数据集上提点1.63%,优于CWD,并且两者可以同时训练。

09.18        加入调试成功的各类蒸馏方法。

 目前支持如下方法:

Logits蒸馏:最新的BCKD(Bridging Cross-task Protocol Inconsistency for Distillation in Dense Object Detection)https://arxiv.org/pdf/2308.14286.pdf;CrossKD(Cross-Head Knowledge Distillation for Dense Object Detection)https://arxiv.org/abs/2306.11369;NKD(From Knowledge Distillation to Self-Knowledge Distillation: A Unified Approach with Normalized Loss and Customized Soft Labels)https://arxiv.org/abs/2303.13005;DKD(Decoupled Knowledge Distillation) https://arxiv.org/pdf/2203.08679.pdf; LD(Localization Distillation for Dense Object Detection) https://arxiv.org/abs/2102.12252;WSLD(Rethinking the Soft Label of Knowledge Extraction: A Bias-Balance Perspective)          https://arxiv.org/pdf/2102.00650.pdf;Distilling the Knowledge in a Neural Network https://arxiv.org/pdf/1503.02531.pd3f。

特征蒸馏:CWD(Channel-wise Knowledge Distillation for Dense Prediction)https://arxiv.org/pdf/2011.13256.pdf;MGD(Masked Generative Distillation)https://arxiv.org/abs/2205.01529;FGD(Focal and Global Knowledge Distillation for Detectors)https://arxiv.org/abs/2111.11837;FSP(A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learning)https://openaccess.thecvf.com/content_cvpr_2017/papers/Yim_A_Gift_From_CVPR_2017_paper.pdf

;PKD(General Distillation Framework for Object Detectors via Pearson Correlation Coefficient) https://arxiv.org/abs/2207.02039。

09.20        单独使用LD在回归分支的实验结果,目前表现最好,提点1.69%,比加了分类分支的BCKD要好。原因分析:可能是分类分支的KD影响了回归分支。

### BCKD IT 技术概述 BCKD 是指 **Backward Compatible Knowledge Distillation**,即向后兼容的知识蒸馏技术。这一方法旨在通过知识蒸馏的方式,在不显著降低性能的前提下,使新模型能够继承旧模型的能力并适应新的任务需求。 #### 向后兼容知识蒸馏的核心概念 在实际应用中,许多场景需要更新或扩展已有的机器学习模型功能,例如增加分类类别、改进预测精度等。然而,直接替换原有模型可能导致历史数据上的表现下降,从而影响用户体验[^2]。为此,BCKD 提供了一种解决方案:它不仅让新模型具备处理新增任务的能力,还确保其在原始任务上保持甚至超越原模型的表现。 以下是 BCKD 的几个关键技术要点: 1. **保留历史能力** 新模型需通过特定机制捕获教师网络(Teacher Network)中的关键特征表示,这些特征通常由大量标注数据训练而成。此过程涉及设计合理的损失函数来约束学生网络(Student Network),使其尽可能接近教师的行为模式[^3]。 2. **引入增量学习策略** 面对不断增长的任务集合,简单的重新训练可能无法满足效率和效果的要求。因此,采用渐进式的迁移学习框架成为必要选项之一。具体而言,可以先固定部分参数层作为共享基础结构,再针对不同子任务分别调整其余权重值[^4]。 3. **优化目标设定** 结合交叉熵误差项以及距离度量类指标构建综合评估体系,用于指导整个训练流程朝着既定方向演进。例如,Kullback-Leibler 散度常被用来衡量两个概率分布之间的差异程度;而欧氏范数则适用于比较激活响应间的相似性水平[^5]。 ```python import torch.nn as nn class BC_KDLoss(nn.Module): def __init__(self, alpha=0.5, temperature=4): super(BC_KDLoss, self).__init__() self.alpha = alpha self.temperature = temperature def forward(self, student_outputs, teacher_outputs, labels): # Compute KD loss component kd_loss = nn.KLDivLoss()(nn.LogSoftmax(dim=1)(student_outputs / self.temperature), nn.Softmax(dim=1)(teacher_outputs / self.temperature)) # Regular classification loss ce_loss = nn.CrossEntropyLoss()(student_outputs, labels) total_loss = (1 - self.alpha) * ce_loss + self.alpha * self.temperature**2 * kd_loss return total_loss ``` 上述代码片段定义了一个基于 PyTorch 实现的自定义损失模块 `BC_KDLoss` ,其中融合了传统监督信号与来自预训练大模型的知识传递效应[^6]。 --- ### 应用领域分析 由于 BCKD 方法强调连续性和稳定性特性,故特别适合应用于如下几类典型场合: - **在线服务升级** 对于搜索引擎推荐引擎广告投放平台等领域来说,频繁迭代算法版本几乎是不可避免的现象。借助该思路可有效缓解因架构变动引发的各种连锁反应风险[^7]。 - **边缘计算环境部署** 当前越来越多智能化装置趋向轻量化趋势发展,比如智能家居安防监控无人机等等。利用小型化的学生版代替复杂庞大的母体形式不失为一种明智之举[^8]. - **联邦学习协作项目开展过程中** 跨机构间联合建模往往面临隐私保护法规限制难题。此时如果能巧妙运用此类压缩技巧,则有助于达成双赢局面——既能保障敏感信息安全又能促进整体效能提升[^9]. ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值