Deep Mutual Learning论文初读

本文介绍了一种深度互学习(Deep Mutual Learning)的策略,学生网络之间相互学习并彼此模仿,即使没有强大的teacher网络,也能实现性能提升。通过在监督学习损失外增加类别后验概率分布对齐的损失,各学生网络能更好地优化参数,提高泛化能力。实验证明,这种方法在多种网络架构和任务上有效,特别是在行人识别和图像分类问题上,优于传统的知识蒸馏方法。
摘要由CSDN通过智能技术生成

目录

摘要

引言

深度互学习

  简洁陈述

  优化

  扩展到多个student之间的学习

实验

  数据集和配置

  Market-1501结果

  和知识蒸馏方法的比较

  更多的student

  为什么有效

结论


摘要

提出一种互学习策略,在这种策略下学生相互学习并且相互知道

互学习的学生网络在没有强大的teacher网络下,仍然可以超过一个强大teacher网络

引言

  • 小网络是可行的

小网络可以有和大网络一样的表达能力

小网络训练困难,不容易找到合适的参数和需要的函数

以上两点说明限制在于优化,而不是网络的大小

而小网络可以从teacher中学习类别概率或者中间层的特征,实验表明,这些信息可以帮助小网络更好的训练出合适的参数,从而解决小网络难以优化的问题

  • 互学习策略

作者提出了一种互学习的策略,在这种策略下,student之间互相学习来共同解决面对的任务

每个student有两个loss:

  1.传统的监督学习loss

  2.将student的类别后验概率和其他student的类别概率分布对齐的loss

这样训练不仅好于传统的监督学习loss,而且好于常规的蒸馏方法(从强大的teacher中学习隐藏信息)

而且常规的蒸馏方法需要一个强大的老师,但是在这种策略下,与独立学习相比,就算没有老师,几个大型网络的相互学习也可以提高性能 

  • 为什么有效

在监督loss下,所有的student都预测了同样的类别,那么关于哪个类别是第二大概率类别,由于没有label,所以每个student都有自己的看法,正是这种信息给了知识蒸馏和互学习额外的信息。

在互学习中,students之间对每个样本实例相互讨论并统一出一个最可能的类别,这增加了每个student的后验熵(这是个什么玩意),它可以帮助student学习到一个更优的最小值,并提升他们的泛化能力

这与最近研究网络鲁棒性的高后验熵类似,但是本文提出的方法是一种比盲熵正则(又是什么玩意)更明智的做法

  • 总结

用几个小网络,而没有大网络的存在,这使得训练更快

适用于很多网络框架,异质地互学习一个大网络和一个小网络也是有效的

大网络互相学习也是有效的

小网络的总和,也可以看成一个单独的有效的集成模型

  • 对比

关于在NLP中的对偶学习,但这只能用在针对的翻译问题中,本文的方法可以应用到普通的分类问题

传统上,认为嵌入更多的多样性是比较好的,而互学习中,由于s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值