星竹紫兰-CSDN博客

原创【知识蒸馏2018】Knowledge Transfer via Distillation of Activation Boundaries Formed by Hidden Neurons

知识蒸馏论文概述

2022-06-30 12:04:31 1110 1

原创【2021自我知识蒸馏】Extracting knowledge from features with multilevel abstraction

【2021.12.8自我知识蒸馏】Extracting knowledge from features with multilevel abstraction一· 本文框架(LFMA)二. 框架具体1.额外层：Extra Layer2.集成3.损失函数4.特征裁剪三. 实验一· 本文框架(LFMA) 从多级抽象的特征中提取知识(LFMA)：Extracting Knowledge from Features with Multilevel Abstraction 自蒸馏 (SKD) ： Sel

2022-03-26 16:41:05 3803

原创【2020】自我蒸馏分类改进Regularizing Class-wise Predictions via Self-knowledge Distillation

【2020】Regularizing Class-wise Predictions via Self-knowledge Distillation具有数百万个参数的深度神经网络可能由于过拟合而泛化能力较差。本文通过自我蒸馏增加正则化（惩罚项），从而减轻过拟合。具体：取同一分类的不同样本进行分类预测，要求产生相似的错误分类，而传统分类未考虑预测分布的一致性。结果：防止过拟合+减少内部阶级差异。...

2022-02-21 16:29:59 1162

原创【2022.1自蒸馏】ADAPTIVE IMAGE INPAINTING自适应图像修复简要概述

【2022.1自蒸馏】ADAPTIVE IMAGE INPAINTING自适应图像修复提出交叉蒸馏+自蒸馏cross (inter-network) and self (intra-network) distillation交叉蒸馏：从包含缺失区域特征的完整信息的辅助网络转移知识，将一个现成的未完成的自编码器训练去重构GT（Ground Truth地面实况）图像...

2022-02-18 10:50:41 2052

原创【2022.1】基于自蒸馏和负采样的自监督异常检测

【2022.1自蒸馏】Self-Supervised Anomaly Detection by Self-Distillation and Negative Sampling预备知识：测试数据和训练数据都来自同样的分布（称作分布内，in-distribution）例如我们利用一组猫、狗照片训练一个猫、狗分类器。然而，部署的模型在实际使用中总是会遇到一些不属于封闭世界类别的图片，例如老虎。或者也会遇到一些和训练图片视觉上大相径庭的照片，例如卡通猫。模型应当如何去处理这些不属于训练分布的图片（即分布外样

2022-02-17 12:18:24 2133

原创【2021知识蒸馏】Show, Attend and Distill:Knowledge Distillation via Attention-based Feature Matching

【2021自我蒸馏】Show, Attend and Distill:Knowledge Distillation via Attention-based Feature Matching1.问题背景2.模型3.实验结果4.创新点与总结1.问题背景知识蒸馏：从老师到学生的学习，一般人工选择老师和学生的中间特征。然而，手动选择经常构建无效的链接，限制了蒸馏的改进。已经有人试图解决这个问题，但在实际情况下确定有效的联系仍然具有挑战性。本文：利用基于注意力的元网络学习特征之间的相对相似性，

2021-12-21 11:57:12 1597

原创小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》

经典论文汇总: 小样本学习论文汇总链接

2020-11-16 18:25:07 297

原创因果推断+机器学习：2020《Stable Prediction with Model Misspecification and Agnostic Distribution Shift∗》

Stable Prediction with Model Misspecification and Agnostic Distribution Shift稳定预测问题论文综述：具有模型错误说明和不可知分布移位的稳定预测作者： Kun Kuang1,2†, Ruoxuan Xiong3, Peng Cui2, Susan Athey3, Bo Li2目的：稳定预测机器学习假设训练集分布和测试集分布相同模型正确地描述，而实际上模型的预测的每个结果是有概率出错的。缺少：1.真实模型的先验知识

2020-10-14 16:12:56 2045

原创因果推断运用到机器学习的思想 2篇论文

因果推断+机器学习链接: 知网：借助因果推断，更鲁棒的机器学习来了！.机器学习+因果推理综述Schölkopf, Bernhard. “Causality for machine learning.” arXiv preprint arXiv:1911.10500 (2019). 简介：这是一篇刚刚挂在arxiv 就被 Pearl 亲自 twitter 点赞的论文，是马普智能所所长 Bernhard Schölkopf 最引以为傲的论文之一，他把被 Pearl 点赞这事情第一时间写在个人主页自我介绍

2020-10-11 20:16:20 1847

原创标签平滑论文笔记：2020《When Does Label Smoothing Help?》

这里写目录标题标签平滑：这里记倒数第二层的激活函数后输出值（在最后权重和softmax概率分布之前的值）为 x 。（倒数第二层偏置是1）pk是样本属于第k个类的概率值，wk表示最后一层对应第k类的权重。把wk看成第k类的模板（template），xTwk的值可以看成欧式距离的一种度量（负号）：xTx在计算softmax输出时被分离出来，wkTwk是每个类的常数。此样本对应的标签的第k个类的概率值是yk(one-hot硬标签)。这个网络的损失函数（交叉熵）：标签平滑：平滑参数：α鼓励网

2020-10-03 21:16:21 1651

原创小样本综述2020：《Generalizing from a Few Examples: A Survey on Few-Shot Learning》

深度学习：小样本综述20201-2 问题(1) 存在问题(2) 方法：先验知识增强3. 数据增强（data augmentation）3.13.23.31-2 问题小样本学习（Few-Shot Learning ，FSL）：经验风险最小化是不可靠的。【补充：期望风险（真实的样本的全部分布已知）经验风险（真实的样本的分布未知，只能抽样，用经验代替真实，大数定律说明抽样越多，越接近真实）结构风险（经验风险最小化容易导致过拟合，结构风险=经验风险+参数正则化项）J（θ）一般

2020-09-25 15:37:47 1368

原创原型网络2017：《Prototypical Networks for Few-shot Learning》论文笔记

目录原形网络（Prototypical Networks）1. 主要思想2. 模型3. 算法4. 少样本和零样本学习5. 实验(1) 数据集Omniglot上少样本分类(2) 数据集miniImageNet上少样本分类(3) 数据集CUB上零样本分类原形网络（Prototypical Networks）1. 主要思想把样本空间投影（嵌入到一个低维空间），利用样本在低维空间的相似度做分类。类似k-means聚类算法，在低维空间中找到每个分类的聚类中心。用距离函数测新的样本的分类。2. 模型样

2020-09-23 20:03:30 2198 1

原创 2020知识蒸馏《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记

论文笔记《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》知识蒸馏2020论文地址：[https://arxiv.org/abs/2006.01683](Channel Distillation: Channel-Wise Attention for Knowledge Distillation, Zaida Zhou, Chaoran Zhuge, Xinwei Guan, Wen Liu, 2020)

2020-09-18 11:05:46 2353 1

原创知识蒸馏：大神Hinton《Distilling the Knowledge in a Neural Network》论文笔记 2015

知识蒸馏：《Distilling the Knowledge in a Neural Network》 2015论文第5部分：在一个特大的数据集上训练一个特殊的网络集成1.问题：网络识别问题2.训练过程2.1通用模型：2.2专有模型：2.2.1专有模型的训练集构造过程2.2.2训练专有模型3.测试过程4.结果15.结果2论文第5部分：在一个特大的数据集上训练一个特殊的网络集成1.问题：网络识别问题前提：训练集JFT，有约1亿个图片。谷歌有个基线模型（Google’s baseline model），

2020-09-14 20:18:31 1244

qq_22497977的博客