小陈读paper系列
文章平均质量分 74
东东要拼命
这个作者很懒,什么都没留下…
展开
-
CRD3 小陈读paper
最佳温度可能因不同的数据集而异,需要进一步调整。如图6所示,在最小化学生网络和教师网络之间的相关性差异方面,我们的对比蒸馏目标明显优于其他目标。另一个观察结果是,虽然将教师学生组合从相同的架构风格切换到不同的架构风格,但提取中间表示的方法往往比从最后几层中提取的方法表现更差。这可能是因为,不同风格的架构有自己的解决方案路径,从输入映射到输出,因此强制中间表示的模拟可能与这种归纳偏差相冲突。对于源模态上的原始训练任务,此类数据没有真实标签 y,因此我们忽略我们测试的所有目标中的 H(y, yS ) 项。原创 2023-10-26 11:39:38 · 218 阅读 · 0 评论 -
CRD2 值得一读的知识蒸馏与对比学习结合的paper 小陈读paper
本篇笔记 拉高了本人博客的逼格 因为能读到 这篇paper 我感觉到了 数学 或是概率统计对我们来说 真的非常重要原创 2023-10-25 22:30:23 · 738 阅读 · 0 评论 -
还是忍不住对对比学习的知识蒸馏动手了(CRD1) 小陈读paper
CONTRASTIVE REPRESENTATION DISTILLATION原创 2023-10-25 17:43:29 · 644 阅读 · 0 评论 -
钢铁异常检测背景 10篇论文摘要分享 小陈读paper系列
工业中的缺陷检测是质量检测中的一项重要任务。原创 2023-10-23 16:07:13 · 267 阅读 · 0 评论 -
钢铁异常分类 few-shot 问题 小陈读paper 钢铁2
同时,也证明了通过最大后验概率估计类的中心等价于最小化[9]中的Wasserstein距离。如图1所示,在训练阶段使用来自基类的样本来训练一个强大的特征提取器。在测试阶段,我们将新类的样本作为输入,并在支持数据集中使用很少的标记图像来完成查询图像的分类。该方法[16]是一种流行的元优化方法,它学习一组初始权重,这些权重适用于少量梯度步骤中的特定任务。首先,考虑不同样本特征之间的相关信息,通过GE集成不同特征之间的相关信息。其次,保证了不同类嵌入样本后分布的一致性,减少了新类上样本的分布偏差。原创 2023-10-17 19:40:00 · 1142 阅读 · 0 评论 -
钢铁异常分类140篇Trans 学习笔记 小陈读paper
在 DGAN 中,多个生成器的权重用于生成不同的图像,为 FiCo 提供更多缺陷数据。对比度不合适,未标记数据不足。它可以准确识别标记样本较少的钢表面缺陷。iCo被提出用于钢表面缺陷图像的表示学习。与对比度强度固定的对比学习不同,FiCo使用设计的可变温度判别和FR灵活调整对比度强度,提高学习表示的质量。提出了一种名为 DGAN 的生成方法来补充未标记的数据。DGAN使用多个生成器权重来减轻模式崩溃并为 FiCo 生成不同的图像,进一步提高了学习表示的质量。原创 2023-10-17 16:19:11 · 514 阅读 · 0 评论 -
Improving Knowledge Distillation via RegularizingFeature Norm and Direction 小陈读paper
class-means. loss help distillation原创 2023-09-25 10:35:40 · 161 阅读 · 0 评论 -
Grad-CAM 小陈读paper系列(摘要加引言)
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization原创 2023-09-05 10:26:54 · 212 阅读 · 0 评论 -
datafree KD CVPR2023 学习笔记(Abstract)
datafree KD CVPR2023 学习笔记(Abstract)原创 2023-07-24 22:41:40 · 283 阅读 · 3 评论 -
Detecting Everything in the Open World: Towards Universal Object Detection小陈读paper系列(泛读)
通过实验发现,在具有大量类别的目标检测数据集LVIS、ImageNetBoxes和VisualGenome上,UniDetector表现出强大的零样本泛化能力(也就是数据集中参与训练的图像样本为0个),超过传统监督算法平均4%以上!而在另外13个具有不同场景的目标检测数据集上,UniDetector仅使用3%的训练数据就达到了最先进的性能!1)基于图像和文本空间的对齐,利用多个来源和异构标签空间的图像进行训练,保证了通用表示的充分信息。3)为了应对训练中的新挑战,作者还提出了提出的。确实 有两个标签来源。原创 2023-04-24 13:24:55 · 424 阅读 · 0 评论 -
CBAM小陈读paper系列
CBAM原创 2023-04-19 19:00:22 · 144 阅读 · 0 评论 -
Improved Knowledge Distillation via Teacher Assistant小陈读paper系列
收获挺少的,就只读摘要引言的话原创 2023-04-11 21:49:17 · 633 阅读 · 0 评论 -
AlexNet 深度学习奠基作之一(1)
在之前的深度学习中,我真的可以 能够 通过训练一个很大的NN,在没有标签的数据集上。performence会降低2个点 说明这个深度是很重要的,也有可能参数没有调好。直到BERT 的兴起 (NLP) 把大家从有监督拉到了无监督的学习上去。其实从另外的角度来说 不仅是深度很重要 而且 宽度也很重要。imagenet 一百二十万的图片 1000个种类。为了减少过拟合 我们使用了dropout。有六千万的参数,和65000的神经元。cv 对于刷榜 是非常在意的。把整个东西里面的内在结构提取出来。原创 2022-12-27 22:18:50 · 237 阅读 · 0 评论 -
ResNet学习笔记(1)
这个图片说明 大家在训练很深的网络是train不动的,训练误差也大,达不到很好的效果。使得训练深的神经网络变得容易很多。提出了 残差学习的框架。对于很多视觉的任务来说。深的神经网络难以训练。原创 2022-12-28 23:42:01 · 124 阅读 · 0 评论 -
AlexNet学习笔记(2)
3.dropout(其实不是在做模型的融合,更多的是的L2正则项)没有dropout过拟合会非常严重,但是加了之后训练速度会慢上两倍。224224*3的image 最后进入的分类层的时候就是一个 4096的一个向量。模式当做是一种知识吧 比如在识别猫的时候 猫的腿 猫的嘴巴 等等。在底层的神经元或者说前面的神经层学到的是一些局部的信息低级信息。3.新的,不常见的 特性来提升网络的性能和降低训练训练的时间。很瘪的很宽的图片然后把它高宽慢慢的变小,但是深度的慢慢的增加。原创 2022-12-28 23:19:19 · 479 阅读 · 0 评论 -
ResNet精读(2)
我们发现训练的时候的精度是要比测试精度来的高的在一开始,这是因为训练的时候用了数据增强。当channel是256的时候 当很深的时候 可以学到东西更多 对应的通道数也就越多。输入的高*输入的宽*通道数*输出通道数再乘以卷积核的高和宽再加上全连接的一层。所以加了之后 梯度还是可以的 可以符合sgd 的精髓 能一直跑效果不错哦哦。但是这个蓝色的额外部分的浅层网络 会上为大一些 就可以训练的动了。给所有的连接做投影(成本很高 不推荐)带来了 大量的计算复杂度。但从本质结构上看 模型的复杂度其实降低了的。原创 2023-01-09 22:03:32 · 296 阅读 · 0 评论 -
ResNet精读笔记(1)
overfitting的意思是 你的训练精度很高(训练误差变得很低 )但是你的测试精度低了(测试误差变得很高)中间有比较大的区别。整理一下 我们构建的深的网络 前20层是学的比较好的 后14层是identity mapping。2.投影(1*1的卷积在空间维度上不做任何的change,主要是可以改变channel的维度)实际上 臣妾办不到 采用随机梯度下降 深的 层学到表较好的(浅的层学习表现好的层的复制)这是因为你的训练误差也变高了 (这里的训练误差和测试误差都很差)原创 2023-01-08 16:23:10 · 318 阅读 · 0 评论 -
知识蒸馏 Knowledge distillation(学习笔记)
1.知识蒸馏 Knowledge distillation是什么2.如何让教师网络把知识教给学生网络3.知识蒸馏需要设定一个蒸馏温度 T4.知识蒸馏的好处5.知识蒸馏的应用场景6.迁移学习 和 知识蒸馏 的区别7.知识蒸馏背后的机理8.知识蒸馏的研究方向原创 2023-01-11 12:10:33 · 682 阅读 · 0 评论 -
未知感知对象检测:从开放视频中学习你不知道的东西(学习笔记)
作者提出:Spatial-Temporal Unknown Distillation(STUD)构建了一个新的框架,这个frame从自然视频中蒸馏出未知物,并且给model整了一个决策边界。面临的问题:model 缺少 对未知数据的监督信号(这里不说人话,人话:没有未知目标的建立标签),对OOD目标产生了自负错误的预测。1.STUD在空间的维度上先识别出来不知道类别的候选框,然后在视频的多个帧中将候选目标聚集,形成决策边界附近的不同的未知物体集。了内分布和蒸馏出的未知物体之间的。基于能量的不确定性正则化。原创 2023-01-05 12:50:34 · 493 阅读 · 0 评论 -
轻量化网络ShuffleNet 旷视
如图所示,前两个channel 有一个2个channel的卷积核负责,两个与两个对应。这也带来了 一些缺点 虽然 做了相应的轻量化,但是也引出了 近亲繁殖的 缺点。分组卷积 提取的特征没有很好的 全局性 也是这个结构所引起的 组与组之间。feature map有几个 我们的对应的卷积核就需要几个channel。原来的卷积 3*3 是卷积核的大小 要12个通道 有6个卷积核。在解释一遍 一个卷积核 处理featuremap的所有通道。卷积核大小不变 但是每组的卷积核掌握的通道数不一样。原创 2022-12-26 22:33:35 · 426 阅读 · 0 评论 -
知识蒸馏综述笔记
知识蒸馏中文综述笔记原创 2023-02-21 10:19:03 · 1014 阅读 · 0 评论 -
人脸识别An Efficient Training Approach for Very Large Scale Face Recognition(学习笔记)
终究还是来了,人脸识别1.moving average manner是什么玩意2.对比损失(Contrastive Loss)3.三元组损失(Triplet Loss)4.余弦相似度5.CVPR2022 An Efficient Training Approach for Very Large Scale Face Recognition的introduction原创 2023-03-13 15:53:14 · 450 阅读 · 0 评论 -
拆解DKD loss (建议读完论文哈)
分析Loss代码原创 2023-03-11 16:42:43 · 701 阅读 · 0 评论 -
transformer是什么 变形金刚
transformer 是什么原创 2022-11-01 23:21:54 · 506 阅读 · 0 评论 -
Privacy-Preserving Object Detection for Medical Images with Faster 小陈读paper系列
两天读4篇文献高强度任务,我觉得我可以原创 2023-03-31 23:39:15 · 352 阅读 · 0 评论 -
DKD笔记
最后输出的 是最抽象的也是最高级的 但是通过比较发现 这个基于logits的蒸馏的性能却不是最好的 有可能受限于一些潜在的未知因素。也有不同架构的 老师和学生。基于feature, relation的蒸馏的语义信息是不如最后的基于logits的。通过KL散度来监督学生的学习 让学生的输出尽可能和Teacher去相似 模仿的行为。TCKD传递的知识来自于一个二分类 主要有用的就是teacher的置信度分布。首先在这里类置信度的分布是离散的 所以采用离散的KL散度。这个消融实验的设计 是相同架构的老师和学生。原创 2023-03-20 22:06:50 · 274 阅读 · 0 评论 -
Review KD(2)
effectiveness of our method. 不过 这也是我想搞知识蒸馏的原因吧 是个通用的部件。是由卷积层和插值层 构造出和老师feature 相同的size(不改变老师的feature)这个写法学到了 **方法比其他方法都好 但是 仍然我们的方法超出他一大截 哈哈哈。这个策略不是最优的 1.在不同的阶段有大量的信息(知识)这个想法真的是很牛 这个想到了 确实有点思维的跳跃。架构相同或是不同的都达到了一个比较不错的 涨点。提出的新的框架 ABF HCL。这一段是来解释一开始的图a 的。原创 2023-03-26 20:40:45 · 459 阅读 · 0 评论 -
Densely Connected Convolutional Networks 小陈读paper系列
说来惭愧 一篇论文 我现在 分了三天还没读完原创 2023-03-30 12:37:36 · 369 阅读 · 0 评论 -
细读Review KD(1)
细读Review KD(1),明天继续原创 2023-03-25 23:37:59 · 751 阅读 · 0 评论 -
强化学习下的多教师知识蒸馏模型(学习笔记
听大佬的讲解 做最清楚的笔记原创 2023-04-02 22:30:49 · 1981 阅读 · 3 评论 -
ICLR2021清华团队做的知识蒸馏提升detector的点的工作paper 小陈读论文系列
找到一篇文章书写风格 梦中情格 清爽原创 2023-04-05 23:02:44 · 421 阅读 · 0 评论