待墨痕干-CSDN博客

原创知识蒸馏简述（一）

写在前面这是一篇关于知识蒸馏的简述文，为了帮助读者以及我自己能对知识蒸馏的发展脉络有一个清晰的了解进而有所感悟，所以才决定写下这篇水文本文根据student网络知识的来源，将知识蒸馏分为四大类：output logits transfer，output transfer，middle layer transfer，later hidden layer transfer，每一个分类将用一...

2019-12-04 10:34:05 1431

原创 Rocket Launching: A Universal and Efﬁcient Framework for Training Well-performing Light Net论文阅读

目录摘要引言相关工作方法框架和损失函数方法特色实验不同的共享结构 CIFAR-10 rocket和AT的中间层注意图的可视化结论摘要提出了用好网络帮助小网络训练的新的统一框架这个框架中，好网络全程都在帮助小网络学习分析了不同的loss的效果用叫做gradient block的技巧同时提升了小网络和好网络的性能引言...

2019-12-02 19:59:58 896

原创 Moonshine: Distilling with Cheap Convolutions论文初读

目录摘要引言相关工作用廉价卷积压缩蒸馏廉价卷积实验结果结论摘要为内存占用的减少提出了一种知识蒸馏的策略，这种策略产生一个简单从teacher框架迁移来的student框架：不需要重新设置，超参数可以直接使用用注意力迁移，本文用四个数据集上的帕累托曲线阐述了内存和准确率之间的权衡关系在牺牲一点准确率的情况下，内存可以有效的减少证明了知识蒸馏...

2019-12-02 09:21:42 571

原创 Born-Again Neural Networks论文初读

目录摘要引言相关文献知识蒸馏 Resnet和DenseNetBorn-Again Network 开头 Selves Born-Again Networks集成的学习顺序 Dark Knowledge刨析对比试验设置实验结果 CIFAR-100 其他对比就略掉把（太麻烦了，没啥用）结论摘要训练一个和teacher参...

2019-12-01 20:26:47 4103 1

原创 Deep Mutual Learning论文初读

目录摘要引言深度互学习简洁陈述优化扩展到多个student之间的学习实验数据集和配置 Market-1501结果和知识蒸馏方法的比较更多的student 为什么有效结论摘要提出一种互学习策略，在这种策略下学生相互学习并且相互知道互学习的学生网络在没有强大的teacher网络下，仍然可以超过一个强大teach...

2019-11-30 23:46:47 660

原创 DarkRank:Accelerating Deep Metric Learning via Cross Sample Similarities论文初读

目录摘要引言相关工作深度度量学习知识迁移背景本文的方法出发点公式实验结论摘要对于模型压缩和加速，提出了交叉样本相似性知识，这类知识可以从深度度量模型中得到为了迁移这类知识，本文将“learning to rank” 技巧带入了深度度量学习公式中在很多度量学习任务（pedestrian re-identiﬁcation, i...

2019-11-30 16:47:28 317

原创 Knowledge Distillation with Conditional Adversarial Networks论文初读

目录摘要引言相关工作网络加速知识蒸馏 GAN知识蒸馏的损失函数残差结构知识蒸馏用对抗网络学习知识实验实验设置 GAN学习的优势 GAN方法的分析分布可视化结论摘要提出了使用CAN（conditional adversarial networks）来搭建teacher-student架构提出...

2019-11-29 15:55:39 774

原创 Knowledge Projection for Effective Design of Thinner and Faster Deep Neural Networks论文初读

目录摘要引言相关工作KPN 总览 KPN层设计多路多阶段训练迭代删减选择映射路径实验结果数据集上的分析自动路径选择方法的分析结论摘要作者提出了一种teacher-student映射知识蒸馏的方法，在小数据集上有效teacher和student用来对接的中间层可以通过自适应的方式来选择，这种自适应的方式是以一种迭代的方式...

2019-11-28 20:51:41 276

原创 A Gift from Knowledge Distillation: Fast Optimization,Network Minimization and Transfer Learning论文初读

目录摘要引言相关工作知识迁移快速优化迁移学习方法提出观点数学表达式 FSP Matrix的损失学习步骤实验快速优化性能的提升迁移学习结论摘要提出了将蒸馏的知识看作成一种解决问题的流，它是在不同层之间的feature通过内积计算得到的这个方法有三个好处： student网络可以学的...

2019-11-28 15:00:10 2361

原创 Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读

目录摘要引言相关工作深度网络压缩与加速知识蒸馏领域自适应准备知识一些符号 MMD（Maximum Mean Discrepancy）神经元选择性迁移出发点公式讨论实验在分类数据集上在检测数据集上讨论不同KT的分析 MMD以外的方法结论摘要将知识迁移看成一种分布匹配问题...

2019-11-27 21:21:20 1906 1

原创 Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

目录方法加入扰动与正则化的关系方法流程对比实验固定sigma，改变alpha 在teacher中加噪声 VS 在student中加噪声其他实验不重要，略方法加入扰动如公式2，在输出层的logits（softmax激活之前）上加入扰动对一个teacher的扰动不仅可以模拟多个teacher，而且会在loss中加入...

2019-11-27 09:23:06 389

原创 Face Model Compression by Distilling Knowledge from Neurons论文初读

目录摘要引言方法通过选择后的神经元训练学生网络神经元的属性判别性定义（关系到上边两个函数如何定义） Teacher和Student的网络结构实验测试方法压缩T1模型压缩模型T2 压缩集成模型T1结论摘要对KD进行改进，不用soften的标签作为监督信息，而是用softmax前的神经元作为监督信息利用学到的人脸特征的...

2019-11-26 22:22:21 394

原创 PAYING MORE ATTENTION TO ATTENTION论文初读

目录摘要引言相关工作注意力图的迁移activation-based attention的迁移 gradient-based attention的迁移实验部分摘要通过蒸馏teacher网络的注意力图来提升student网路的性能引言将注意力机制和蒸馏结合起来探索activation-based，activation-based attenti...

2019-11-26 10:58:09 974 1

原创 FITNETS: Hints For Thin Deep Nets论文初读

目录摘要引言方法 KD的回顾提出基于Hint的训练方式（应该就是CL）与CL训练的关系实验结果（挑选的有意思的）实验分析结论摘要不仅仅用到了输出，还用到了中间层作为监督信息让学生网络变得更深的同时，让它变的更快引言之前蒸馏的做法：之前一篇论文是用集成的模型作为老师模型，来得到一个更宽但更浅的网络；另一篇论文是将老师模型的输出的...

2019-11-25 18:28:10 1817

m0_37665984的博客