自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 知识蒸馏简述(一)

写在前面这是一篇关于知识蒸馏的简述文,为了帮助读者以及我自己能对知识蒸馏的发展脉络有一个清晰的了解进而有所感悟,所以才决定写下这篇水文本文根据student网络知识的来源,将知识蒸馏分为四大类:output logits transfer,output transfer,middle layer transfer,later hidden layer transfer,每一个分类将用一...

2019-12-04 10:34:05 1431

原创 Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net论文阅读

目录摘要引言相关工作方法 框架和损失函数 方法特色实验 不同的共享结构 CIFAR-10 rocket和AT的中间层注意图的可视化结论摘要提出了用好网络帮助小网络训练的新的统一框架这个框架中,好网络全程都在帮助小网络学习分析了不同的loss的效果用叫做gradient block的技巧同时提升了小网络和好网络的性能引言...

2019-12-02 19:59:58 896

原创 Moonshine: Distilling with Cheap Convolutions论文初读

目录摘要引言相关工作用廉价卷积压缩 蒸馏 廉价卷积实验结果结论摘要为内存占用的减少提出了一种知识蒸馏的策略,这种策略产生一个简单从teacher框架迁移来的student框架:不需要重新设置,超参数可以直接使用用注意力迁移,本文用四个数据集上的帕累托曲线阐述了内存和准确率之间的权衡关系在牺牲一点准确率的情况下,内存可以有效的减少证明了知识蒸馏...

2019-12-02 09:21:42 571

原创 Born-Again Neural Networks论文初读

目录摘要引言相关文献 知识蒸馏 Resnet和DenseNetBorn-Again Network 开头 Selves Born-Again Networks集成的学习顺序 Dark Knowledge刨析 对比试验设置实验结果 CIFAR-100 其他对比就略掉把(太麻烦了,没啥用)结论摘要训练一个和teacher参...

2019-12-01 20:26:47 4103 1

原创 Deep Mutual Learning论文初读

目录摘要引言深度互学习 简洁陈述 优化 扩展到多个student之间的学习实验 数据集和配置 Market-1501结果 和知识蒸馏方法的比较 更多的student 为什么有效结论摘要提出一种互学习策略,在这种策略下学生相互学习并且相互知道互学习的学生网络在没有强大的teacher网络下,仍然可以超过一个强大teach...

2019-11-30 23:46:47 660

原创 DarkRank:Accelerating Deep Metric Learning via Cross Sample Similarities论文初读

目录摘要引言相关工作 深度度量学习 知识迁移背景本文的方法 出发点 公式实验结论摘要对于模型压缩和加速,提出了交叉样本相似性知识,这类知识可以从深度度量模型中得到为了迁移这类知识,本文将“learning to rank” 技巧带入了深度度量学习公式中在很多度量学习任务(pedestrian re-identification, i...

2019-11-30 16:47:28 317

原创 Knowledge Distillation with Conditional Adversarial Networks论文初读

目录摘要引言相关工作 网络加速 知识蒸馏 GAN知识蒸馏的损失函数 残差结构 知识蒸馏 用对抗网络学习知识实验 实验设置 GAN学习的优势 GAN方法的分析 分布可视化结论摘要提出了使用CAN(conditional adversarial networks)来搭建teacher-student架构提出...

2019-11-29 15:55:39 774

原创 Knowledge Projection for Effective Design of Thinner and Faster Deep Neural Networks论文初读

目录摘要引言相关工作KPN 总览 KPN层设计 多路多阶段训练 迭代删减选择映射路径实验结果 数据集上的分析 自动路径选择方法的分析结论摘要作者提出了一种teacher-student映射知识蒸馏的方法,在小数据集上有效teacher和student用来对接的中间层可以通过自适应的方式来选择,这种自适应的方式是以一种迭代的方式...

2019-11-28 20:51:41 276

原创 A Gift from Knowledge Distillation: Fast Optimization,Network Minimization and Transfer Learning论文初读

目录摘要引言相关工作 知识迁移 快速优化 迁移学习方法 提出观点 数学表达式 FSP Matrix的损失 学习步骤实验 快速优化 性能的提升 迁移学习结论摘要提出了将蒸馏的知识看作成一种解决问题的流,它是在不同层之间的feature通过内积计算得到的这个方法有三个好处: student网络可以学的...

2019-11-28 15:00:10 2361

原创 Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读

目录摘要引言相关工作 深度网络压缩与加速 知识蒸馏 领域自适应准备知识 一些符号 MMD(Maximum Mean Discrepancy)神经元选择性迁移 出发点 公式 讨论实验 在分类数据集上 在检测数据集上讨论 不同KT的分析 MMD以外的方法结论摘要将知识迁移看成一种分布匹配问题...

2019-11-27 21:21:20 1906 1

原创 Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

目录方法 加入扰动 与正则化的关系 方法流程对比实验 固定sigma,改变alpha 在teacher中加噪声 VS 在student中加噪声 其他实验不重要,略方法 加入扰动如公式2,在输出层的logits(softmax激活之前)上加入扰动对一个teacher的扰动不仅可以模拟多个teacher,而且会在loss中加入...

2019-11-27 09:23:06 389

原创 Face Model Compression by Distilling Knowledge from Neurons论文初读

目录摘要引言方法 通过选择后的神经元训练学生网络 神经元的属性判别性定义(关系到上边两个函数如何定义) Teacher和Student的网络结构实验 测试方法 压缩T1模型 压缩模型T2 压缩集成模型T1结论摘要对KD进行改进,不用soften的标签作为监督信息,而是用softmax前的神经元作为监督信息利用学到的人脸特征的...

2019-11-26 22:22:21 394

原创 PAYING MORE ATTENTION TO ATTENTION论文初读

目录摘要引言相关工作注意力图的迁移activation-based attention的迁移 gradient-based attention的迁移实验部分摘要通过蒸馏teacher网络的注意力图来提升student网路的性能引言将注意力机制和蒸馏结合起来探索activation-based,activation-based attenti...

2019-11-26 10:58:09 974 1

原创 FITNETS: Hints For Thin Deep Nets论文初读

目录摘要引言方法 KD的回顾 提出基于Hint的训练方式(应该就是CL) 与CL训练的关系实验结果(挑选的有意思的)实验分析结论摘要不仅仅用到了输出,还用到了中间层作为监督信息让学生网络变得更深的同时,让它变的更快引言之前蒸馏的做法:之前一篇论文是用集成的模型作为老师模型,来得到一个更宽但更浅的网络;另一篇论文是将老师模型的输出的...

2019-11-25 18:28:10 1817

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除