Variational Information Distillation for Knowledge Transfer

最新推荐文章于 2023-09-19 10:59:53 发布

weixin_37958272

最新推荐文章于 2023-09-19 10:59:53 发布

阅读量815

点赞数

分类专栏：知识蒸馏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37958272/article/details/116230802

版权

知识蒸馏专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Variational Information Distillation for Knowledge Transfer

将预先训练好的教师神经网络中的知识转移到学生神经网络中，可以显著提高学生神经网络的性能。现有的知识转移方法与教师和学生网络的激活或相应的手工特征相匹配。我们提出了一个知识转移的信息论框架，将知识转移描述为教师和学生网络之间的互信息最大化。我们将我们的方法与现有的知识转移方法在知识提炼和转移学习任务上进行了比较，结果表明我们的方法始终优于现有的方法。我们通过在CIFAR-10上将知识从卷积神经网络（CNN）转移到多层感知器（MLP），进一步证明了我们的方法在跨异构网络架构上的优势。由此产生的MLP明显优于最先进的方法，它达到了与具有单一卷积层的CNN类似的性能。

1. Introduction

深度神经网络（DNN）在各种计算机视觉任务中发挥着重要作用，例如，深度估计[8]、姿势估计[26]、光流[7]、物体分类[11]、检测[10]和分割[25]。一个典型的计算机视觉任务的DNN方法是用大量的标记数据训练一个复杂的端到端神经网络。如果有足够的数据量，这样的方法往往可以提供最先进的性能。然而，在许多情况下，不可能收集到足够大的数据来训练一个DNN。例如，在许多医学图像应用中[24]，可用的数据量受到特定疾病患者数量的限制。

weixin_37958272

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Variational Information Distillation for Knowledge Transfer

Variational Information Distillation for Knowledge Transfer将预先训练好的教师神经网络中的知识转移到学生神经网络中，可以显著提高学生神经网络的性能。现有的知识转移方法与教师和学生网络的激活或相应的手工特征相匹配。我们提出了一个知识转移的信息论框架，将知识转移描述为教师和学生网络之间的互信息最大化。我们将我们的方法与现有的知识转移方法在知识提炼和转移学习任务上进行了比较，结果表明我们的方法始终优于现有的方法。我们通过在CIFAR-10上将知识从卷积神
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。