知识蒸馏
文章平均质量分 95
知识蒸馏相关
~拾捌~
这个作者很懒,什么都没留下…
展开
-
知识蒸馏论文翻译(11)—— Knowledge Transfer via Dense Cross-Layer Mutual-Distillation
基于知识蒸馏(KD)的方法采用单向知识转移(KT)方案,在该方案中,由预先训练的高容量教师网络来指导低容量学生网络的训练。最近,深度相互学习(DML)提出了一种双向KT策略,表明学生网络也有助于改善教师网络。在本文中,我们提出了密集跨层相互蒸馏(DCM),这是一种改进的双向KT方法,其中教师和学生网络从头开始协同训练。为了增强知识表示学习,在教师和学生网络的某些隐藏层中添加了精心设计的辅助分类器。为了提高KT性能,我们在附加分类器的层之间引入了密集的双向KD操作。原创 2023-05-10 10:44:43 · 231 阅读 · 0 评论 -
知识蒸馏论文翻译(10)—— A Fast Knowledge Distillation Framework for Visual Recognition
虽然知识蒸馏(KD)已被公认为许多视觉任务中的有用工具,如监督分类和自监督表示学习,但普通KD框架的主要缺点是其机制,它消耗了通过巨大教师网络转发的大部分计算开销,使得整个学习过程效率低下且成本高昂。最近提出的解决方案ReLabel[52]建议为整个图像创建一个标签图。在培训期间,它通过在预先生成的整个标签图上进行RoI对齐来接收裁剪的区域级标签,从而实现高效的监督生成,而无需多次通过教师。原创 2023-05-09 16:22:50 · 229 阅读 · 0 评论 -
知识蒸馏论文翻译(12)—— Adaptive Multi-Teacher Multi-level Knowledge Distillation
知识提取(KD)是一种有效的学习范式,通过利用从教师网络中提取的额外监督知识来提高轻量级学生网络的性能。大多数开创性研究要么只从一位老师那里学习提炼学习方法,忽视了学生可以同时从多位老师那里学习的潜力,要么只是将每位老师视为同等重要的老师,无法通过具体的例子揭示教师的不同重要性。为了弥补这一差距,我们提出了一种新的自适应多教师多级知识提取学习框架(AMTML-KD),它包括两个新的见解:(i)将每个教师与潜在表示相关联,以自适应地学习实例级教师重要性权重,这些权重用于获取综合软目标(高级知识);原创 2023-05-10 12:13:42 · 407 阅读 · 0 评论 -
一些知识蒸馏相关论文简读
MulDE: Multi-teacher Knowledge Distillation for Low-dimensional Knowledge Graph EmbeddingsKnowledge Transfer via Dense Cross-Layer Mutual-DistillationDistilling a Powerful Student Model via Online Knowledge DistillationDistill on the Go: Online knowledg原创 2023-05-12 16:29:13 · 399 阅读 · 0 评论 -
一些多教师蒸馏论文简读
AMTSS: An Adaptive Multi-Teacher Single-Student Knowledge Distillation Framework For Multilingual Language InferenceLearning Accurate, Speedy, Lightweight CNNs via Instance-Specific Multi-Teacher原创 2023-06-12 15:11:29 · 207 阅读 · 0 评论 -
在线蒸馏论文翻译——Peer Collaborative Learning for Online Knowledge Distillation
传统的知识蒸馏使用两阶段训练策略将知识从高容量教师模型转移到紧凑的学生模型,这严重依赖于预先训练的教师。最近的在线知识提炼通过协作学习、相互学习和在线集成,遵循一个阶段的端到端培训方式,减轻了这一限制。然而,协作学习和相互学习无法构建在线高容量教师,而在线集成忽略了分支之间的协作,其逻辑总和阻碍了集成教师的进一步优化。在这项工作中,我们提出了一种新的用于在线知识提取的对等协作学习方法,该方法将在线集合和网络协作集成到一个统一的框架中。翻译 2023-03-21 13:12:33 · 316 阅读 · 0 评论 -
在线蒸馏论文翻译——Online Knowledge Distillation via Collaborative Learning
这项工作通过协作学习提出了一种高效而有效的在线知识提取方法,称为KDCL,它能够持续提高具有不同学习能力的深度神经网络(DNN)的泛化能力。与现有的两阶段知识提取方法不同,即预先训练一个具有大容量的DNN作为“教师”,然后将教师的知识单向(即单向)转移到另一个“学生”DNN,KDCL将所有DNN视为“学生”,并在单个阶段对其进行协作训练(在协作训练期间,知识在任意学生之间转移),实现并行计算、快速计算和吸引人的泛化能力。翻译 2023-03-21 13:04:01 · 448 阅读 · 0 评论 -
在线蒸馏论文翻译——Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition(对比学习)
教师免费在线知识蒸馏(KD)旨在协同训练多个学生模型的集合,并从彼此中提取知识。尽管现有的在线KD方法实现了理想的性能,但它们通常将类概率作为核心知识类型,而忽略了有价值的特征表示信息。我们提出了一个用于在线KD的相互对比学习(MCL)框架。MCL的核心思想是以在线方式在一组网络之间执行对比分布的相互交互和传递。我们的MCL可以聚合跨网络嵌入信息,并最大化两个网络之间相互信息的下界。这使得每个网络能够从其他网络学习额外的对比知识,从而获得更好的特征表示,从而提高视觉识别任务的性能。翻译 2022-12-17 22:36:59 · 392 阅读 · 0 评论 -
知识蒸馏论文翻译(9)—— Multi-level Knowledge Distillation via Knowledge Alignment and Correlation
知识蒸馏论文翻译(9)—— Multi-level Knowledge Distillation via Knowledge Alignment and Correlation基于知识对齐和关联的多层次知识蒸馏文章目录知识蒸馏论文翻译(9)—— Multi-level Knowledge Distillation via Knowledge Alignment and Correlation摘要一、介绍二、相关工作三、多层次知识提炼3.1 知识整合3.2 知识关联3.3 有监督的知识提炼3.4 MLKD原创 2022-04-23 17:44:19 · 3535 阅读 · 1 评论 -
知识蒸馏论文翻译(8)—— Knowledge Distillation Meets Self-Supervision(自监督)
知识蒸馏是一种重要的模型压缩和迁移学习技术,它涉及从教师网络中提取“暗知识”来指导学生网络的学习。与以前利用特定于体系结构的线索(如激活和注意力)进行蒸馏的工作不同,这里我们希望探索一种更通用、模型不可知的方法,从预先培训过的教师模型中提取“更丰富的黑暗知识”。我们表明,看似不同的自我监督任务可以作为一个简单而强大的解决方案。例如,在转换实体之间进行对比学习时,教师网络的噪声预测反映了其语义和姿势信息的内在组成原创 2022-04-22 16:54:42 · 1024 阅读 · 1 评论 -
知识蒸馏论文翻译(7)—— Knowledge Distillation from Internal Representations(内部表征)
知识蒸馏论文翻译(7)—— Knowledge Distillation from Internal Representations(内部表征)文章目录知识蒸馏论文翻译(7)—— Knowledge Distillation from Internal Representations(内部表征)摘要一、介绍二、相关工作三、方法四、实验五、结论摘要知识提炼通常是通过训练一个小模型(学生)来模仿一个大而笨重的模型(老师)。其想法是通过使用输出概率作为软标签来优化学生,从而压缩来自教师的知识。然而,当教师人原创 2022-04-22 16:01:51 · 1955 阅读 · 0 评论 -
知识蒸馏论文翻译(6)——FEED: Feature-level Ensemble for Knowledge Distillation
知识蒸馏论文翻译(6)——FEED: Feature-level Ensemble for Knowledge DistillationFEED:用于知识提炼的特征级集成文章目录知识蒸馏论文翻译(6)——FEED: Feature-level Ensemble for Knowledge Distillation摘要一、介绍二、相关工作三、提出的训练算法3.1 并行FEED3.2 连续的FEED四、实验4.1 FEED损失的有效性4.2 FEED并行4.3 连续FEED4.4 定性分析五、讨论结论摘原创 2022-04-16 19:07:04 · 2718 阅读 · 0 评论 -
知识蒸馏论文翻译(5)—— Feature Normalized Knowledge Distillation for Image Classification(图像分类)
知识蒸馏论文翻译(5)—— Feature Normalized Knowledge Distillation for Image Classification(图像分类)用于图像分类的特征归一化知识蒸馏文章目录知识蒸馏论文翻译(5)—— Feature Normalized Knowledge Distillation for Image Classification(图像分类)摘要一、介绍二、相关工作三、方法3.1 One-Hot 标签中的噪声3.23.3 倒数第二层中的特征3.4 特征规范化知识提原创 2022-04-15 14:51:00 · 3276 阅读 · 0 评论 -
知识蒸馏论文翻译(4)—— Exclusivity-Consistency Regularized Knowledge Distillation for Face Recognition
知识蒸馏论文翻译(4)—— Exclusivity-Consistency Regularized Knowledge Distillation for Face Recognition排他一致性正则化人脸识别知识提取文章目录知识蒸馏论文翻译(4)—— Exclusivity-Consistency Regularized Knowledge Distillation for Face Recognition摘要一、介绍二、相关工作三、提出的方法3.1权重排他性3.2 特征一致性3.3 排他性一致性规范原创 2022-04-14 23:43:59 · 376 阅读 · 0 评论 -
知识蒸馏论文翻译(3)—— Ensembled CTR Prediction via Knowledge Distillation
知识蒸馏论文翻译(3)—— Ensembled CTR Prediction via Knowledge Distillation经由知识蒸馏的集合CTR预测文章目录知识蒸馏论文翻译(3)—— Ensembled CTR Prediction via Knowledge Distillation摘要一、介绍二、背景2.1 CTR 预测2.2 知识蒸馏三、综合CTR预测3.1 概述3.2 从一位老师那里得到的蒸馏3.4 训练四、实验五、相关工作六、结论摘要最近,基于深度学习的模型已被广泛研究用于点击原创 2022-04-14 16:04:40 · 600 阅读 · 0 评论 -
知识蒸馏论文翻译(2) —— Distilling Knowledge via Knowledge Review(知识回顾、知识提炼)
知识蒸馏论文翻译(2)——(2)Distilling Knowledge via Knowledge Review(知识回顾、知识提炼)通过知识回顾提炼知识。文章目录知识蒸馏论文翻译(2)——(2)Distilling Knowledge via Knowledge Review(知识回顾、知识提炼)摘要一、介绍二、相关工作三、方法3.1 Review Mechanism3.2 剩余学习框架3.3 ABF and HCL四、实验4.1 Classification4.2 目标检测4. 3 实例分割4.原创 2022-04-13 21:36:48 · 604 阅读 · 0 评论 -
知识蒸馏论文翻译(1)——CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION(多教师知识提炼)
基于置信度的多教师知识蒸馏(CA-MKD),该方法在地面真值标签的帮助下,自适应地为每个教师预测分配样本可靠度,并为那些接近一个热标签的教师预测分配较大的权重。此外,CA-MKD还结合了中间层的特征,以稳定知识转移过程。原创 2022-04-13 13:08:18 · 2389 阅读 · 0 评论