20-CVPR-Distilling Knowledge from Graph Convolutional Networks

最新推荐文章于 2023-03-29 09:49:11 发布

BLvren_

最新推荐文章于 2023-03-29 09:49:11 发布

阅读量459

点赞数

分类专栏：论文阅读迁移学习文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/BLvren_/article/details/120450773

版权

知识蒸馏

知识蒸馏指的是模型压缩的思想，通过将预先训练的繁琐网络作为教师模型，知识蒸馏的目的是学习一个紧凑的学生模型，期望通过转移教师的知识来掌握教师的专业知识。
KD在15-nipsworskshop-Distilling the knowledge in a neural network.被首先提出。
KD主要有两条技术路线：label smoothing和feature distillation，前者利用teacher模型的输出分布作为一个平滑的label来训练student,后者利用中间表达的语义信息。

knowledge type

response-based knowledge: 教师网络的最后一层的神经反应，思想也就是模仿教师网络的最后预测。
Feature-based knowledge: 网络中间层输出的intermediate representation。直接匹配师生网络的feature activations, 或者直接匹配feature
Relation-Based Knowledge: 进一步探索了不同层或不同数据样本之间的关系。

Distillation Schemes

offline distillation: 大多数KD都是offline的，teacher网络是pre-train的
online distillation: 特别是在大规模的高性能的teacher网络不可用的情况下。online蒸馏中，师生网络同时更新

最低0.47元/天解锁文章

BLvren_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
20-CVPR-Distilling Knowledge from Graph Convolutional Networks

知识蒸馏知识蒸馏指的是模型压缩的思想，通过将预先训练的繁琐网络作为教师模型，知识蒸馏的目的是学习一个紧凑的学生模型，期望通过转移教师的知识来掌握教师的专业知识。KD在15-nipsworskshop-Distilling the knowledge in a neural network.被首先提出。20-CVPR-Distilling Knowledge from Graph Convolutional Networks摘要现有的知识蒸馏方法侧重于CNN，其中输入样本如图像位于网络域，并在很大程
复制链接

扫一扫