小太阳啊！！-CSDN博客

原创 Distilling object detectors with efficient logit mimicking and mask-guided feature imitation

知识蒸馏是一种很有前途的学习紧凑模型的方法，可以利用从复杂的教师网络中继承的信息进行目标检测。本文提出了现有KD方法在目标检测器中的不足，如忽略知识选择、粗糙特征模仿掩码等。为了解决这些问题，提出了一种新的KD框架，通过Logit模仿和特征模仿（LMFI）来训练有效的目标检测。首先，提出了一种新的logit模拟方法来提取分类和定位头。一方面，本文首先提出了对单类目标检测分类logit的模拟。另一方面，利用教师预测和ground truth的定位知识，分阶段动态引导学生对回归输出的学习。其次，

2024-05-24 17:05:15 490

原创 FasterNet代码阅读

总而言之，通过先缩放维度到隐藏层，再缩放回原维度，可以提高模型的表达能力、引入多尺度特征信息，并灵活控制模型复杂度。随后再将隐藏维度的特征缩放回原始维度，将不同尺度的特征信息与原始特征进行融合，从而获得更丰富的特征表示。总之，将图像分解为非重叠的图像块并进行特征嵌入是为了提高计算效率、捕捉局部特征、支持变尺寸输入和实现并行处理，从而更好地应对图像分析任务的需求。支持变尺寸输入：通过将图像切分为块，并对每个块进行嵌入，可以处理不同尺寸的输入图像，而不需要对整个图像进行大小调整。层的参数量，避免模型过于复杂。

2024-05-22 14:53:49 1207

原创 YOLOV8中加入EMA注意力机制和自创可扩展卷积使得小目标检测提点

可扩展卷积与一般卷积的区别是，可以得到不同感受野的大小。这里使用三分支不同的可扩展卷积，对特征图进行提取，得到感受野不同的特征图，有助于图中的小目标信息提取。EMA是CBAM注意力的改进，比CBAM注意力更好。1、自创可扩展卷积模块。2、EMA注意力机制。

2024-05-22 14:45:54 1219 1

原创 Closed-loop unified knowledge distillation for dense object detection 面向密集目标检测的闭环统一知识蒸馏

大多数用于目标检测的知识蒸馏方法都是基于特征的，并且取得了较好的效果。然而，仅在特征模仿部分进行提取，并不能充分利用更精密的检测头设计来进行目标检测，特别是密集目标检测。本文提出了一种三重平行蒸馏（TPD）方法，可以有效地将检测头的所有输出响应从教师传递到学生。此外，克服了基于特征的蒸馏与基于响应的蒸馏的简单结合、效果增强有限的缺点。提出了一种分层重加权注意蒸馏（HRAD）方法，使学生在特征信息上比教师学到更多，并在检测头的分类—IoU联合表示与基于注意的特征之间进行互反馈。

2024-05-17 18:50:15 1066

原创 DTKD核心代码解析

【代码】DTKD核心代码解析。

2024-05-15 14:15:49 420 1

原创 Dynamic Temperature Knowledge Distillation动态温度知识蒸馏

在知识蒸馏（KD）领域中，温度在调节标签柔软度方面起着关键作用。传统方法通常在整个KD过程中采用静态温度，这无法解决具有不同难度水平的样本的细微复杂度，并且忽略了不同师生配对的独特能力。这导致了不太理想的知识转移。为了改进知识传播过程，我们提出了动态温度知识蒸馏（DTKD）方法，该方法在每个训练迭代中同时对教师和学生模型引入动态、协作的温度控制。特别是，我们提出了“锐度”作为量化模型输出分布的平滑度的度量。通过最小化教师和学生之间的锐度差异，我们可以分别得出他们的样本特定温度。

2024-05-14 19:15:05 1953 2

原创 I2CKD : INTRA- AND INTER-CLASS KNOWLEDGE DISTILLATION FOR SEMANTIC SEGMENTATION

本文提出了一种新的针对图像语义分割的知识蒸馏方法，称为类内和类间知识蒸馏（I2CKD）。该方法的重点是在教师（繁琐模型）和学生（紧凑模型）的中间层之间捕获和传递知识。对于知识提取，我们利用从特征图派生的类原型。为了促进知识转移，我们**采用了三重损失来最小化类内的差异，最大化教师和学生原型之间的类间差异。**因此，I2CKD使学生能够更好地模仿每个类的教师的特征表示，从而提高紧凑网络的分割性能。

2024-05-13 15:26:06 1074

原创 Attention-guided Feature Distillation for Semantic Segmentation

与现有的复杂方法相比，该方法通常用于从老师那里提取知识给学生，该方法展示了一种简单而强大的方法，可以利用精细的特征映射来转移注意力。事实证明，该方法在提取丰富信息方面是有效的，在作为密集预测任务的语义分割方面优于现有方法。所提出的注意力引导特征蒸馏（AttnFD)方法采用卷积块注意模块（CBAM），该模块通过考虑通道特征信息和空间信息内容来细化特征映射。通过仅使用教师和学生的精细化特征图之间的均方误差（MSE）损失函数，AttnFD在语义分割方面表现出出色的性能。

2024-05-11 15:15:34 990

原创 Logit Standardization in Knowledge Distillation 知识蒸馏中的logit标准化

知识蒸馏涉及使用基于共享温度的softmax函数将软标签从教师转移到学生。然而，教师和学生之间共享温度的假设意味着他们的logits在logit范围和方差方面必须精确匹配。这种副作用限制了学生的表现，考虑到他们之间的能力差异，以及教师天生的logit关系足以让学生学习。为了解决这个问题，我们建议将温度设置为logit的加权标准差，并在应用softmax和KL散度之前进行logit标准化的即插即用Z-score预处理。

2024-05-08 13:34:11 1653

原创 KNOWLEDGE DISTILLATION BASED ON TRANSFORMED TEACHER MATCHING

温度标度作为logit匹配和概率分布匹配的bridge技术，在知识蒸馏（KD）中起着至关重要的作用。传统上，在蒸馏中，温度标度适用于教师的logits和学生的logits。在本文中，受到最近一些研究成果的启发，我们放弃了学生方面的温度缩放，并系统地研究了KD的结果变体，称为转化教师匹配（TTM通过将温度标度重新解释为概率分布的幂变换，我们发现与原始KD相比TTM在其目标函数中具有固定的Renyi熵项，该熵项作为额外的正则化项。

2024-05-06 17:00:03 702

原创 Improve Knowledge Distillation via Label Revision and Data Selection

除了监督ground truth之外，vanilla KD方法还将教师的预测作为软标签来监督学生模型的训练。基于vanilla KD，已经开发了各种方法来进一步提高学生模型的性能。然而，这些先进的方法很少考虑到教师模型监督的可靠性。来自错误预测的监督可能会误导学生模型的训练。标签修订，纠正错误的监督；数据选择，选择合适的样本进行蒸馏，减少错误监督的影响。在前者中，我们建议使用ground truth来纠正教师的错误预测。在后者中，我们引入了一种数据选择技术，选择合适的训练样本由教师监督。

2024-05-03 18:22:52 703

原创 Scale Decoupled Distillation

Logit知识蒸馏因其实用性在近年来的研究中越来越受到重视。然而，与特征知识蒸馏相比，它的性能往往较差。在本文中，我们认为现有的基于Logit的方法可能是次优的，因为它们只利用了耦合多个语义知识的全局Logit输出。这可能会把模棱两可的知识传递给学生，误导他们学习。为此，我们提出了一种简单而有效的logit知识蒸馏方法，即尺度解耦蒸馏（SODSOD**将全局logit输出解耦为多个局部logti输出，并为它们建立蒸馏管道。这有助于学生挖掘和集成细粒度和明确的logit知识。

2024-04-30 19:56:17 1011

原创 MFFSODNet: Multiscale Feature Fusion Small Object Detection Network for UAV Aerial Images

针对无人机航拍图像中的各种挑战，提出了一种基于深度学习的多尺度特征融合小目标检测网络（MFFSODNet)。在MFFSODNet中，针对小目标比例高、分布密集的问题，我们提出增加一个微小目标预测头来代替大目标预测头，在降低参数的同时提高模型对微小目标的感知和检测精度。然后，针对标准卷积模块难以获取目标多尺度特征信息的问题，通过构建多分支结构，引入一个高效的多尺度特征提取模块（MSFEM），用于在多尺度上提取丰富的目标特征，避免特征图降采样过程中特征信息的丢失，从而提高检测精度。

2024-04-29 21:10:49 984

原创 Adaptive Knowledge Distillation for Lightweight Remote Sensing Object Detectors Optimizing

目前，轻型目标检测在遥感领域得到越来越多的应用。一般来说，轻量级检测器很难达到与传统深度模型相比具有竞争力的性能，而知识蒸馏是解决这一问题的一种很有前途的训练方法。由于遥感图像背景较为复杂，目标大小变化较大，直接应用现有的KD会产生大量的噪声，影响训练效果。为了解决上述问题，**我们提出了一种自适应强化监督蒸馏（ARSD）框架，以提高轻量型模型的检测能力。**首先，

2024-04-23 20:35:10 801

原创 Directional Alignment Instance Knowledge Distillation for Arbitrary-Oriented Object Detection

近几年，实时AOOD模型在机载和卫星平台上得到了广泛应用。然而，现有的检测模型依赖于复杂结构来提高特征提取能力和场景泛化能力。他们会导致模型参数和FLOPs的显著增加。由于边缘平台有限的计算资源和功耗，这些高性能复杂模型不适合实际应用。轻量级模型虽然复杂度低、速度快，但无法承担高精度的检测任务。因此，迫切需要弥补轻量级模型与复杂模型之间的性能差距。现有的方法大致可分为两类：轻量化结构设计和模型压缩技术（剪枝、量化、KD）。轻量级结构设计、剪枝和量化可以加快推理和压缩模型参数。

2024-04-06 20:25:49 678

原创 EFPN代码解读

这样做的目的是将预定义模型的配置与当前的配置文件对象相结合，以确保模型在训练或推理过程中使用正确的参数和设置。通过设置不同的输入特征层，可以根据任务和数据集的需求来选择使用哪些层级的特征图进行特征融合，以获得更好的多尺度表示能力。通过设置不同的主干网络名称，可以使用不同的预定义主干网络结构或自定义的主干网络结构来适应不同的任务和数据集。函数通过截断正态分布初始化给定的张量，并确保生成的值位于指定的范围内，以帮助模型的初始化和训练。表示每张图像中的候选区域的总数，其中正样本和负样本的比例由算法自动调整。

2024-04-02 20:28:15 1099 1

原创 Dual Relation Knowledge Distillation for Object Detection用于目标检测的双关系知识蒸馏

有两个关键点导致检测任务的蒸馏性能不佳。一是前景和背景特征严重不平衡，二是小对象缺乏足够的特征表示。为了解决上述问题，我们提出了一种新的知识蒸馏方法——双关系知识蒸馏（DRKD），包括逐像素关系蒸馏和逐实例关系蒸馏。逐像素关系蒸馏将像素特征嵌入图空间中，并利用图卷积捕获全局像素关系。通过提取全局像素关系，学生检测器可以了解前景和背景特征之间的关系，避免了由于特征不平衡问题而直接提取特征的困难。此外，我们发现实例关系为小对象的独立特征之外补充了有价值的知识。

2024-04-01 21:09:51 1753

原创 Knowledge distillation for object detection based on Inconsistency-based Feature Imitation and Globa

知识蒸馏在目标检测方面只取得了微不足道的进步。本文提出了一种基于不一致特征模仿（IBFI）和全局关系模仿（GRI)的目标检测知识蒸馏方法。IBFI计算分类头和回归头的差值，以平衡检测器的分类和定位能力。GRI使学生能够模仿老师的关系信息。到目前为止，KD在图像分类方面已经取得了很大的成功，但由于它涉及到分类和定位任务，所以不能直接迁移到目标检测中。目前，用于目标检测的最广泛的蒸馏方法是特征模仿，将教师的特征传递给学生。不幸的是，这些特征充斥着冗余，其中一些可能不利于检测。

2024-03-31 19:45:42 648

原创 PP-YOLOE： An evolved version of YOLO

本节中，我们将首先回顾我们的基线模型，然后从网络结构、标签分配策略、头部结构和损失函数等方面详细介绍PP-YOLOE。的锚点大小仔细设置了上下限，但基于锚点和无锚点的方式之间的分配结果仍然存在小的不一致，这可能会导致精度下降。这也使得模型在训练时更加关注高质量的样本，而不是那些低质量的样本。这可以有效地学习分类得分和定位质量估计的联合表示，从而实现训练和推理之间的高度一致性。在目标检测这中，分类和定位之间的任务冲突是一个众所周知的问题。，将残差连接和密集连接相结合，用于我们的主干和颈部。

2024-03-30 18:47:18 1159

原创 DMKD: IMPROVING FEATURE-BASED KNOWLEDGE DISTILLATION FOR OBJECT DETECTION VIA DUAL MASKING AUGMENTAT

最近主流的掩模蒸馏方法是通过从教师网络的特征图中重建学生网络的选择性掩模区域来实现的。在这些方法中，需要适当的选择掩模区域，使重构的特征像教师特征一样具有足够的识别和表示能力。然而，以前的掩模蒸馏方法只关注空间掩模，使得得到的掩模区域偏向于空间重要性，而没有编码信息通道线索。在这项研究中，我们设计了一个双掩模知识蒸馏（DMKD）框架，它可以捕获空间上重要的和通道上的信息线索，用于全面的掩模特征重建。更具体的说，我们采用双重注意机制来引导各自的掩模分支，从而导致构建的特征编码具有双重意义。

2024-03-27 16:39:41 2574

原创 Focal Modulation Networks聚焦调制网络

然而，焦点调制的上下文聚合是在每个查询位置而不是目标位置执行的，然后是调制而不是关注。这种更改仍然能够实现依赖于输入的令牌交互，但通过将聚合与单个查询解耦，显著简化了过程，因此仅凭几个特性即可实现轻量级交互。例如，该模型可能依赖于局部细粒度特征来编码显著视觉对象的查询，但主要依赖于全局粗粒度特征来编码背景场景的查询。的局部结构建模，或纯粹用于实现有效的长范围相互作用。然而，具有多级上下文聚合的焦点调制自然地捕获了短距离和长距离结构，从而实现了更好的精度-与常规卷积相比，它是通道式的，因此在计算上便宜的多。

2024-03-26 20:53:39 1578

原创 TPH-YOLOv5: Improved YOLOv5 Based onTransformer Prediction Head for Object Detectionon

这种灵活性的一个缺点是，他们通过随机训练算法学习，这意味着他们对训练数据的细节很敏感，每次训练时可能会发现不同的权重集，从而产生不同的预测。被研究人员广泛使用。为了实现对我们提出的TPH-YOLOV5的更多改进，我们提供了一些有用的策略，如数据增强、多尺度测试、多模型集成和利用额外的分类器。此外，通过对故障案例的可视化，我们发现我们提出的架构具有出色的本地化能力，但分类能力较差，尤其是在一些类似的类别上，如“集成到不同分类和检测数据集上的不同模型中后，模型的性能得到了很大的提高，证明了该模型的有效性。

2024-03-25 17:12:31 1763

原创 FOCUS-AND-DETECT: A SMALL OBJECTDETECTION FRAMEWORK FOR AERIAL IMAGES

这就产生了一个新的问题，这些区域中的重叠区域和阻断对象降低了整体性能，因为检测器可能会预测完整版本的边界框，以及相同对象的截断版本的边界盒，如图5。例如，合并目标区域的检测可能很困难，因为可能存在重叠的区域和截断的对象。在这种情况下，主干网模型是为检测任务提取特征的网络，头部是预测边界框和类的实际检测模型，颈部位于主干网和头部网络之间，并融合来自主干网模型不同阶段的特征图。但是，这些区域中可能存在重叠的区域和截断的对象。为了获得物体边界框的最终预测，必须将检测阶段的预测合并为焦点区域的模型输出预测。

2024-03-24 21:02:54 1070

原创 Structured Knowledge Distillation for Accurate and Efficient Object Detection

许多之前的知识蒸馏方法是为图像分类而设计的，在具有挑战性的任务（如目标检测）中失败。本文首先提出了知识蒸馏在目标检测中失败的主要原因是：（1）前景和背景之间不平衡：(2)缺乏对不同像素之间关系的蒸馏。针对这两个问题，提出了一种结构化的知识蒸馏方案，包括注意力引导蒸馏和非局部蒸馏。采用注意力引导蒸馏的方法，利用注意力机制找到前景目标的关键像素点，使学生更加努力地学习其特征。提出了非局部蒸馏，使学生不仅可以学习单个像素的特征，还可以学习非局部模块捕获的不同像素之间的关系。

2024-03-23 17:08:14 1376 3

原创 Cascaded Zoom-in Detector for High ResolutionAerial Images

通过这种方式，我们的方法是检测器不可知的（因为我们不改变检测器的内部结构，所以我们只需向目标类列表中添加一个额外的类），并且不需要检测器本身以外的任何额外组件。让我们考虑保持其高分辨率的原始图像、下采样图像和裁剪图像，下采样图像是包含与原始图像相同的视图但缩小到检测器输入分辨率的图像，裁剪图像是放大到检测器分辨率的图像的选定区域。由于航空图像中的物体通常出现在图像稀疏分布的区域中，因此需要执行基于密度的裁剪，然后处理这些拥挤物体区域的高分辨率版本以获得更好的比例平衡。作物的质量对我们的方法很重要。

2024-03-22 18:30:41 1851 1

原创 CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION自信感知多教师知识蒸馏

知识蒸馏最初是为了利用单个教师的额外监督来训练学生模型。为了提高学生的表现，最近的一些变体试图利用来自多个教师的不同知识来源。然而，现有的研究方法主要是通过对多个教师预测进行平均或使用其他无标签策略将它们组合在一起来整个不同来源的知识，这可能会在存在低质量教师预测的情况下误导学生。为了解决这个问题，我们提出了自信感知的多教师知识蒸馏（CA-MKD），他在ground truth标签的帮助下自适应为每个教师预测分配样本置信度，那些接近一个热点标签的教师预测分配了较大的权重。

2024-03-20 14:03:32 1560

原创 Adaptive Sparse Convolutional Networks withGlobal Context Enhancement for Faster ObjectDetection o

然而，它存在着对微小物体的上下文信息的不充分整合，以及在存在不同尺度的前景时对遮罩比率的笨拙控制的问题。）层，将基于稀疏采样特征的统计数据替换为全局上下文特征，然后设计了一种自适应多层掩蔽策略，以在不同尺度上生成最优掩蔽比，实现紧凑的前景覆盖，提高了准确性和效率。然而，由于航空图像的前景表现出严重的波动，固定比率容易导致计算的显著增加或由于前景区域的覆盖不足而导致精度的降低。）集成，在无人机图像的两个主要公共基准上广泛评估了所提出的方法，在保持有竞争力的准确性的同时，显著降低了其计算成本。

2024-03-19 15:11:34 956

原创 DEYOv2: Rank Feature with Greedy Matchingfor End-to-End Object Detection

也应该能够很好地处理拥挤的边界框的聚类，后者的难度明显低于前者。查询过滤过滤掉一些冗余的边界框，代价是一些定位不好的边界框的召回率，这在一定程度上影响了最终的性能，所以我们使用具有一对一匹配的stage3来补偿这部分性能损失。，并以YOLOv5为例，它可以提供数以万计的查询，这比基于查询的检测器多了几个数据集，并且与基于查询的检测设备相比，维护单个查询的成本要低。上述现象表明，基于查询的检测器的过滤能力有限，其对边界框的抑制策略不好，并且对查询初始化有严格要求，这在一定程度上限制了基于查询检测器的设计。

2024-03-18 12:47:35 1202

原创 Task-balanced distillation for object detection用于

主流的目标检测器通常由分类和回归两个子任务组成，由两个并行头部实现。这种经典的设计范式不可避免的导致分类得分和定位质量（IOU）之间的空间分布不一致。因此，本文从知识蒸馏的角度缓解了这种偏差。首先，我们观察到，与轻量级学生相比，大的教师实现了更高比例的和谐预测。基于这一有趣的观察，设计了一个新的和谐分数来估计分数和回归质量的一致性。HS对两个子任务之间的关系进行建模，并被视为促进学生和谐预测的先验知识。其次，这种空间错位会导致特征提取时区域选择不协调。为了解决这一问题，

2024-03-16 20:26:15 1247

原创 Dense Distinct Query for End-to-End Object Detection

对象检测中的一对一标签分配成功地消除了作为后处理的非极大值抑制（NMS）的需要，并使流水线端到端。然而，这引发了一个新的困境，因为广泛使用的稀疏查询无法保证高召回率，而密集查询不可避免地带来更多类似的查询并遇到优化困难。由于稀疏查询和密集查询都有问题，那么端到端对象检测中预期的查询是什么？本文证明了该解决方案应该是密集的区别查询（DDQ。具体来说，我们首先像传统的检测器一样设置密集的查询，然后选择不同的查询进行一对一分配。DDQ融合了传统和最近端到端检测器的优点，显著提高了包括FCNR-CNN。

2024-03-15 15:46:34 1682

原创 Focal and Global Knowledge Distillation forDetectors

文章指出，在目标检测中，教师和学生在不同领域的特征差异很大，尤其是在前景和背景中。如果我们平等地蒸馏它们，特征图之间的不均匀差异将对蒸馏产生负面影响。因此，我们提出了局部和全局蒸馏。局部蒸馏分离前景和背景，迫使学生专注于教师的关键像素和通道。全局蒸馏重建了不同像素之间的关系，并将其从教师传递给学生，补偿了局部蒸馏中缺失的全局信息。由于我们的方法只需要计算特征图上的损失，FGD可以应用于各种探测器。总结提出了局部和全局蒸馏，局部蒸馏分离前景和背景，迫使学生专注于教师的关键像素和通道。

2024-03-14 14:06:54 1097

原创 Be Your Own Teacher: Improve thePerformance of Convolutional Neural Networks viaSelf Distillation

为了训练紧凑的模型以实现尽可能高的精度，并克服传统蒸馏的缺点，提出了一种新的自蒸馏框架。自蒸馏的主要区别在于，浅分类器是通过蒸馏而不是通过标签来训练的，这导致了实验结果支持的明显更高的准确性。传统的知识蒸馏是一种网络之间的知识转换方法，它迫使学生神经网络接近预先训练的教师神经网络的softmax层输出，与此不同，所提出的自蒸馏框架提取网络本身的知识。本文中，提出了一种名为自蒸馏的通用训练框架，该框架通过缩小网络的规模而不是扩大网络的规模，而提高卷积神经网络的性能。外，每个分类器的监督来自三个来源。

2024-03-13 13:26:17 2793

原创 Focal Modulation Networks聚焦调制网络

中提出的焦点关注的启发。然而，焦点调制的上下文聚合是在每个查询位置而不是目标位置执行的，然后是调制而不是关注。这种更改仍然能够实现依赖于输入的令牌交互，但通过将聚合与单个查询解耦，显著简化了过程，因此仅凭几个特性即可实现轻量级交互。例如，该模型可能依赖于局部细粒度特征来编码显著视觉对象的查询，但主要依赖于全局粗粒度特征来编码背景场景的查询。然而，具有多级上下文聚合的焦点调制自然地捕获了短距离和长距离结构，从而实现了更好的精度-有着相似的精神，但使用局部上下文而不是全局上下文，使用减法而不是乘法。

2024-03-12 15:04:33 1975

原创 ScaleKD: Distilling Scale-Aware Knowledge in Small Object Detector

尽管通用目标检测取得了显著的成功，但小目标检测（SOD）的性能和效率仍然令人不满意。与现有的努力平衡推理速度和SOD性能之间的权衡的工作不同，在本文中，我们提出了一种新颖的尺度感知知识蒸馏（ScaleKD)，他将复杂的教师模型转移到紧凑的学生模型。为了提高SOD蒸馏过程中知识转移的质量，我们设计了两个新的模块：（1）一个尺度解耦特征蒸馏模块，将教师的特征表示解耦成多尺度嵌入，使小对象上的学生模型的显示特征模拟成为可能。

2024-03-11 13:52:27 1314 1

原创 Masked Generative Distillation（MGD）2022年ECCV

*目前的蒸馏算法通常通过模仿老师的输出来提高学生的表现。本文表明，教师还可以通过引导学生特征恢复来提高学生的代表性。从这个角度来看，我们提出的掩模生成蒸馏（MGD），它很简单：我们掩模学生特征的随机像素，并通过一个简单的块强制其生成教师的完整特征。**MGD是一种真正通用的基于特征的蒸馏方法，可用于各种任务，包括图像分类、目标检测、语义分割和实例分割。我们用大量的数据集对不同的模型进行了实验，结果表明所有的学生都取得了很好的进步。

2024-03-10 10:56:36 1068

原创 Swin Transformer文章解读

从语言转换为视觉的挑战源于两个领域之间的差异，例如视觉实体的规模变化很大，图像中的像素与文本中的单词相比分辨率很高。偏移的窗口桥接了前一层的窗口，提供了它们之间的连接，显著增强了建模能力。在这种移位后，批窗口可由特征图中不相邻的子窗口组成，因此，使用屏蔽机制将自注意计算限制在每个子窗口内。所示，移位窗口桥接了前一层的窗口，提供二者之间的连接，显著增强建模能力。）时是线性的，全局自注意计算对于大型硬件来说通常还是负担不起的，而基于窗口的自注意是可扩展的。经过循环移位的方法，一个窗口可包含来自不同窗口的内容。

2024-03-09 13:50:38 1278

原创 Extended Feature Pyramid Network for SmallObject Detection

常见的全局丢失会导致小物体区域的学习不足，因为小物体只占整个图像的一小部分。所示，小型对象必须与中型和大型对象共享相同的特征图，而像大型对象这样的简单情况可以从合适的级别提取特征。各种尺度的特征耦合会削弱小对象的性能，本文中，我们提出了具有超高分辨率金字塔的扩展特征金字塔网络（EFPN。的启发，我们设计了一种新的模块来超分辨率参考下的具有可信细节的浅特征，从而生成更适合小物体检测的特征。正补丁丢失对对象所在的区域起着更强的约束作用，强制学习这些区域的真实表示。），用于同时超分辨率特征和提取可信的区域细节。

2024-03-08 12:43:27 1669 3

原创 Revisiting ResNets: Improved Training andScaling Strategies重新审视ResNets：改进的训练和扩展策略

和数据扩充显著提高了泛化能力。虽然在短期的非正规训练设置中对体系结构进行基准测试有助于与之前的工作进行公平的比较，但尚不清楚体系结构的改进是否能在更大范围内持续并改进训练设置。我们设想，未来成功的架构将通过与硬件的共同设计而出现，特别是在资源紧张的情况下，如手机。在小规模制度中发现的缩放策略（例如，在小模型上或很少的训练epoch）可能无法推广到更大的模型或更长的训练迭代。时期时采用宽度缩放的工作一致，我们不定我们的缩放策略如何应用于需要更大图像分辨率的任务（例如检测和分割），并将其留给未来的工作。

2024-03-07 14:15:40 1185 1

原创 Activating More Pixels in Image SuperResolution Transformer

相比之下，我们基于相同的任务直接在更大规模的数据集上进行预训练，表明预训练的有效性更多地取决于数据的规模和多样性。因此，我们的目标是设计一种网络，在激活更多像素进行重建的同时，可以利用类似的自注意。特别是，一个新设计的网络，SwinIR，在这项任务中获得了突破性的改进。我们相信，大规模的数据对预训练来说才是真正重要的，实验结果也表明了我们策略的优越性。此外，为了在相邻的非重叠窗口之间建立连接，我们还利用移位窗口划分方法，并将移位大小设置为窗口大小的一半。直观的说，利用的信息越多，性能就越好。

2024-03-06 13:20:46 3000

原创 Distilling Knowledge via Knowledge Review

知识蒸馏从教师网络转移到学生网络，目的是大大提高学生网络的性能。以往的方法主要是通过提出特征变换和同级特征之间的损失函数来提高有效性。对师生网络连接路径交叉层次的影响因素进行了不同程度的研究，揭示了其重要性。在知识蒸馏中首次提出了跨阶段连接路径。我们新的审查机制有效，结构简单。我们最终设计的嵌套和紧凑的框架需要可以忽略不计的计算开销，并且在各种任务上由于其他方法。我们将我们的方法应用于分类、对象检测和实例分割任务。知识蒸馏在文献[9]中首次提出。

2024-03-05 19:50:31 1003

空空如也

空空如也