Frankenstein@-CSDN博客

大多数目标检测算法（稠密预测）在得到最终的预测结果时，特征图的每个位置都会输出多个检测结果，整个特征图上会出很多个重叠的框。例如要检测一辆车，可能会有多个bbox都把这辆车给框了出来，因此需要从这些bbox中选出框得最好的，删除掉其它的。要定义框得好与不好，就得看bbox的预测置信度；为了删掉重叠的多余的框，就得利用IoU来检查重叠程度。

2023-05-12 20:50:07 3574 1

原创图像生成论文阅读：Latent Diffusion算法笔记

通过将图像的产生过程分解成去噪自编码器的连续应用，扩散模型（DM）在图像数据和其它方面实现了SOTA的合成结果。此外，它们的产生允许一个引导机制来控制图像生成过程，无需重新训练。然而，由于这些模型通常直接在像素空间中操作，优化强效的DM通常需要消耗数百个GPU天，并且由于顺序评估因而推理是昂贵的。为了能够在有限的计算资源上训练DM，同时保留它们的质量和灵活性，我们将它们应用到强大的预训练自编码器的潜在空间中。

2023-05-05 22:25:21 2169 1

原创图像生成论文阅读：GLIDE算法笔记

扩散模型最近已被证明可以生成高质量的合成图像，特别是在与引导技术结合起来时，可以实现多样性和保真度的折衷。我们探索了文本条件的图像合成问题的扩散模型，并比较了两种不同的引导策略：CLIP引导和无分类器引导。我们发现，人类评估者更喜欢后者，因为后者更逼真和符合描述，并且经常产生具有照片真实感的样本。与DALL-E相比，使用无分类器引导的具有35亿参数的文本条件扩散模型的样本更受人类评估者的青睐，即使后者使用了昂贵的CLIP重排序。此外，我们发现我们的模型可以微调以执行图像修补从而实现强大的文本驱动的图像编辑。

2023-05-01 22:19:33 2508 1

原创对比学习论文阅读：CoCLR算法笔记

本文的研究目标是纯视觉的自监督视频表征学习。我们做出了以下贡献：①我们研究了在基于实例的信息噪声对比估计训练中加入语义类别正样本的好处，表明了这种形式的有监督对比学习带来了明显的性能提升；②我们提出了一种新颖的自监督协同训练方案来改进流行的infoNCE损失，利用同一数据源的不同视图，RGB流和光流的互补信息，通过使用一个视图来获得另一个视图的正类样本；③我们在两个不同的下游任务：动作识别和视频检索上全面评估了学习到的表征的质量。在这两种情况下，所提出的方法都表现出与其它自监督方法SOTA或可比的性能。

2023-04-29 22:25:49 1628 1

原创图像修补论文阅读：MAT算法笔记

在本文中，我们提出了一种新的基于transformer的大空洞修复模型，它结合了transformers和卷积的优点来高效地处理高分辨率图像。我们精心设计了框架的每个组成部分，以保证恢复图像的高保真度和多样性。具体来说，我们定制了一个面向修复的transformer block，其中的注意力模块仅从部分有效的token中聚合非局部信息，用动态掩码表示。大量实验证明了该新模型在多个基准数据集上的SOTA性能。

2023-04-27 12:55:57 2985 1

原创图像复原论文阅读：GRL算法笔记

本文的目的是提出一种机制，在全局、区域和局部范围内高效、显式地建模图像层次结构，以进行图像复原。为此，我们从分析自然图像的两个重要性质入手，包括跨尺度相似性和各向异性图像特征。受此启发，我们提出了锚条纹自注意力，在自注意力的空间和时间复杂度以及超出区域范围的建模能力之间取得了很好的平衡。然后，我们提出了一种新的网络结构，称为GRL，通过锚条纹自注意力、窗口自注意力和通道注意力增强卷积来显式地建模全局、区域和局部范围内的图像层次结构。最后，将所提出的网络应用于7种图像复原类型，涵盖真实场景和合成场景。

2023-04-07 20:30:56 2351 1

原创目标检测论文阅读：YOLOv1算法笔记

我们提出了YOLO，一种新的目标检测方法。先前的目标检测工作对分类器稍加修改来执行检测。取而代之的是，我们将目标检测表示为空间上分离的边界框的回归问题和与之相关的类别概率。单个神经网络在一次评估中直接从整个图像中预测边界框和类别概率。由于整个检测pipeline是一个单一的网络，因此可以直接对检测性能进行端到端的优化。我们的统一结构速度极快。我们的基础YOLO模型可以以每秒45帧的速度实时处理图像。该网络的一个较小的版本，Fast YOLO，以惊人的每秒155帧的速度运行。

2023-03-30 22:54:44 699 1

原创目标检测论文阅读：RepPoints v2算法笔记

验证和回归是神经网络中两种常用的预测方法。每种方法都有自己的优点：验证可以更容易准确地推理，回归对连续的目标变量更加有效和适用。因此，仔细地将它们结合起来以利用它们的好处往往是有益的。在本文中，我们采用这一思想来改进SOTA的目标检测，特别是RepPoints。尽管RepPoints提供了高性能，但我们发现它严重依赖回归来进行目标定位，这给RepPoints带来了改进的空间。我们将验证任务引入到RepPoints的定位预测中，产生了RepPoints v2。

2023-03-15 22:46:20 1001 3

原创目标检测论文阅读：DeFCN（POTO+3DMF）算法笔记

基于全卷积网络的主流目标检测器取得了令人印象深刻的性能。然而，它们中的大多数仍然需要手工设计的非极大值抑制后处理，这妨碍了完全的端到端训练。在本文中，我们给出了丢弃NMS的分析，结果表明适当的标签分配起着至关重要的作用。为此，针对全卷积检测器，我们引入一种预测感知的一对一标签分配进行分类，使能够端到端的检测，获得了与NMS相当的性能。此外，还提出了一个简单的3D最大滤波来利用多尺度特征，提高卷积在局部区域的可识别力。

2023-03-12 22:05:13 928 1

原创知识蒸馏论文阅读：DKD算法笔记

SOTA的蒸馏方法主要基于蒸馏来自中间层的深度特征，而logit蒸馏的重要性被极大地忽略。为了给logit蒸馏的研究提供一个新的视角，我们将经典的KD损失重新表示为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们经验地研究并证明了这两部分的作用：TCKD迁移了关于训练样本的“难度”的知识，而NCKD则是logit蒸馏起作用的重要原因。更重要的是，我们揭示了经典的KD损失是一个耦合的形式，它①抑制了NCKD的有效性，②限制了平衡这两部分的灵活性。为了解决这些问题，我们提出解耦知识蒸馏。

2023-03-08 11:00:41 2200 1

原创目标检测论文阅读：RepPoints算法笔记

现代目标检测器在各个识别阶段严重依赖于矩形边界框来表示目标，如锚框、建议和最终预测。边界框使用方便，但是只提供了目标的粗糙定位，导致目标特征相应地粗糙提取。在本文中，我们提出RepPoints，一种新的更精细的目标表示，它是一组对定位和识别都有益的采样点。给定用于训练的真值位置和识别目标，RepPoints学习以一种限制目标的空间范围并指示语义显著的局部区域的方式来自动地排列自己。而且它们不需要使用anchor来采样边界框空间。

2023-03-03 00:34:39 1092 4

原创目标检测论文阅读：CBNet算法笔记

本文我们提出了一种新颖且灵活的主干框架，即CBNet，在预训练微调（pre-training fine-tuning）范式下利用现有的开源预训练主干来构建高性能检测器。特别地，CBNet结构组合了多个相同的主干，通过复合连接（composite connection）进行连接。具体来说，它融合了多个相同主干网络的高层和低层特征，并逐步扩大感受野，以更有效地进行目标检测。我们还针对CBNet-based检测器提出了一种更好的具有辅助监督（auxiliary supervision）的训练策略。

2023-02-27 19:39:24 1168 1

原创弱监督论文阅读：P2BNet算法笔记

近年来，使用单点监督的目标检测受到了越来越多的关注。然而，点监督目标检测与边界框监督检测的性能差距仍然很大。在本文中，我们将如此大的性能差距归因于未能生成对多实例学习至关重要的高质量建议包。为了解决这个问题，我们给现成建议方法引入了一种轻量级的替代，并由此创建了点到框网络，它可以通过以一种锚框式的方式生成建议来构建目标间平衡的建议包。P2BNet通过充分挖掘精确的位置信息，进一步构建实例级的包，避免了多个目标的混合。最后，以级联的方式使用由粗到精的策略来改善建议与真值之间的IoU。

2023-02-25 22:06:21 2091 1

原创知识蒸馏论文阅读：LD算法笔记

在目标检测中，知识蒸馏（KD）在学习小型模型方面具有强大的能力。以前用于目标检测的KD方法大多侧重于模仿那些要模仿区域内的深层特征，而不是模仿分类logit，因为它在蒸馏定位信息方面效率很低，而且没有什么改进。本文通过重新表述定位知识蒸馏过程，提出了一种新的定位蒸馏（LD）方法，可以有效地将定位知识从教师迁移给学生。此外，我们还启发式地引入了有价值定位区域的概念，可以帮助选择性地蒸馏特定区域的语义和定位知识。

2023-02-23 16:35:20 1543 2

原创知识蒸馏论文阅读：FGD算法笔记

知识蒸馏已经成功应用于图像分类。然而，目标检测要复杂得多，大多数知识蒸馏方法都失败了。本文指出在目标检测中，教师和学生在不同区域的特征差异很大，尤其是在前景和背景区域。如果我们将它们同样地蒸馏，特征图之间的不均匀差异会对蒸馏产生负面影响。因此，我们提出了局部和全局蒸馏（FGD）。局部蒸馏将前景和背景分离，迫使学生关注教师的关键像素和通道。全局蒸馏重建了不同像素之间的关系，并将其从教师传递给学生，弥补了局部蒸馏丢失的全局信息。由于我们的方法只需要计算特征图上的损失，因此FGD可以应用于各种检测器。

2023-02-20 19:51:27 2895 4

原创目标检测论文阅读：DETR算法笔记

我们提出了一种新的方法，将目标检测视为一个直接的集合预测问题。我们的方法简化了检测pipeline，有效地消除了许多手工设计的组件，如非极大值抑制过程或锚框生成，这些组件显式地编码了我们关于任务的先验知识。新框架，称为DEtection TRansformer或DETR，其主要成分是一个基于集合的全局损失，它通过二分图匹配强制进行唯一预测，以及一个transformer编码器-解码器结构。给定一个固定的学习到的目标query小型集合，DETR推理目标和全局图像上下文的关系，并行地直接输出最终的预测集合。

2023-02-19 20:02:36 1367 1

原创 Transformer论文阅读：Swin Transformer算法笔记

我们提出了一个层级式Transformer，其表征是通过移动窗口来计算的。移动窗口方案通过将自注意力的计算限制在非重叠的局部的窗口，从而带来更高的效率，同时还允许跨窗口的联系。这种层级式的结构具有在不同尺度下建模的灵活性，并且具有与图像尺寸相关的线性的计算复杂度。Swin Transformer的这些特性使其可以兼容广泛的视觉任务，包括图像分类和稠密预测任务，如目标检测和语义分割。其性能在各个视觉任务基准上都超过了之前的SOTA，展示了基于Transformer的模型作为视觉主干的潜力。

2023-02-18 19:38:22 3411 3

原创 Transformer论文阅读：ViT算法笔记

虽然Transformer结构已经成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件同时保持它们的整体结构。我们表明，这种对CNN的依赖不是必要的，直接用于图像块序列的纯Transformer可以在图像分类任务中表现得很好。当在大量数据上进行预训练，再迁移到多个中小型图像识别基准时，视觉变换器（Vision Transformer，ViT）与SOTA的卷积网络相比取得了优异的结果，并且需要的训练计算资源更少。

2023-02-17 00:08:40 1342 2

原创目标检测论文阅读：GraphFPN算法笔记

在本文中，我们提出了图特征金字塔网络，它能够调整其拓扑结构以适应不同的内在图像结构，并支持在所有尺度上同时进行特征交互。我们首先为每个输入图像定义一个特定于图像的超像素层次结构来表示其内在的图像结构。图特征金字塔网络的结构继承了这个超像素层次结构。上下文层和层次层旨在实现同一尺度内和不同尺度间的特征交互。contextual层和hierarchical层旨在实现同一尺度内和不同尺度间的特征交互。

2023-02-13 19:26:47 1254 2

原创目标检测论文阅读：GaFPN算法笔记

本文提出了几何感知特征金字塔网络，该网络主要由新颖的几何感知映射模块和几何感知预测头组成。几何感知映射模块是为了充分利用所有的金字塔特征，通过权重生成子网络获得更好的建议特征。权重生成子网络利用建议的几何信息为每一层的建议特征生成融合权重。几何感知预测头通过嵌入的生成网络将几何先验引入预测头，从而加强特征表示，用于分类和回归。我们的GaFPN可以很容易地扩展到其它具有特征金字塔的两阶段目标检测器和用于实例分割任务。在MS COCO数据集上，GaFPN相比于各种基线检测器显著提高了检测性能。

2023-02-09 22:14:39 612 1

原创目标检测论文阅读：Sparse R-CNN算法笔记

我们提出Sparse R-CNN，一种用于图像目标检测的纯稀疏方法。现有的目标检测工作严重依赖于稠密的目标候选，例如在大小为$H×W$的图像特征图的所有网格上预先定义$k$个锚框。然而，在我们的方法中，一个固定的稀疏学习目标建议集，总长度为$N$，提供给目标识别头执行分类和定位。Sparse R-CNN通过将$HWk$（成千上万）个手工设计的目标候选剔除到$N$（例如100）个可学习的提议，完全避免了所有与目标候选设计和多对一标签分配相关的工作。更重要的是，最终的预测结果是直接输出的，无需进行非极大值抑制。

2023-02-07 14:16:54 1356 1

原创目标检测论文阅读：Libra R-CNN算法笔记

与模型结构相比，对检测器的成功同样至关重要的训练过程在目标检测中受到的关注相对较少。在这项工作中，我们仔细回顾了检测器的常规训练惯例，发现检测性能往往受限于训练过程中的不平衡性，这一般包含三个层次：采样层、特征层和目标层。为了缓解由此带来的不利影响，我们提出了Libra R-CNN，一个用于目标检测的简单有效的平衡学习框架。它集成了三个新颖的组件：IoU平衡采样、平衡特征金字塔和平衡L1损失，分别用于减少采样、特征和目标层的不平衡。得益于整体平衡的设计，Libra R-CNN显著提升了检测性能。

2023-02-04 21:55:01 1132 1

原创弱监督论文阅读：BoxLevelSet算法笔记

本文我们提出一种新颖的单阶段边界框监督实例分割方法，巧妙地将经典的水平集模型与深度神经网络相结合。具体来说，我们提出的方法通过一个连续的Chan-Vese能量函数以端到端的方式迭代学习一系列水平集。采用简单的掩码监督的SOLOv2模型预测实例感知的掩码图作为每个实例的水平集。输入图像及其深度特征都作为演化水平集曲线的输入数据，其中，一个边界框投影函数用于获得初始边界。通过最小化完全可微的能量函数，每个实例的水平集在其对应的边界框标注内迭代优化。

2023-02-02 18:38:53 1109 1

原创弱监督论文阅读：DiscoBox算法笔记

我们提出一个新的框架DiscoBox，它使用边界框监督来联合学习实例分割和语义对应。具体来说，我们提出了一个自集成框架，其中的实例分割和语义对应由结构化教师和边界框监督共同指导。教师是一个结合了成对势能和跨图像势能的结构化能量模型，用于建模边界框内部和边界框之间的成对像素关系。最小化教师能量同时产生精细的目标掩码和类内目标之间的稠密对应关系，将其作为伪标注来监督任务网络并为稠密对比学习提供正/负对应对。我们展示了这两种任务互惠互利的共生关系。我们的最佳模型在COCO实例分割上达到了37.9%AP。

2023-01-31 21:56:37 1000 1

原创弱监督论文阅读：BoxInst算法笔记

我们提出了一种高性能的方法，可以实现只使用边界框标注进行训练的掩码级实例分割。虽然此前已经有文献研究过这种场景，但在这里我们仅用一个简单的设计便展现出明显更强的性能（例如，在COCO数据集上将之前公布的最好的掩码AP从21.1%大幅提升至31.6%）。我们的核心思想是在不修改分割网络本身的情况下，重新设计实例分割中学习掩码的损失。新的损失函数可以在不依赖掩码标注的情况下监督掩码的训练。

2023-01-25 22:06:05 2113 1

原创目标检测论文阅读：TridentNet算法笔记

尺度变化是目标检测中的关键挑战之一。在这项工作中，我们首先提出一个控制实验来研究感受野对目标检测中尺度变化的影响。基于探究实验的发现，我们提出一种新颖的三叉戟网络（TridentNet），旨在生成具有统一表征能力的特定尺度特征图。我们构建了一个并行的多分支结构，每个分支都共享相同的变换参数，但具有不同的感受野。然后，我们使用一种尺度感知的训练方案，通过在训练时采样适当尺度的目标实例，使每个分支特定化。此外与原始检测器相比，TridentNet的快速近似版本可以在没有任何额外参数和计算成本情况下实现显著提升。

2023-01-20 22:42:59 802

原创目标检测论文阅读：VFNet算法笔记

将大量候选检测准确地进行排序对于稠密目标检测器取得高性能来说是至关重要的。之前的工作使用分类分数，或者分类和预测的定位分数的组合来给候选框排序。然而，这二者都会导致不可靠的排序，使检测性能降低。本文提出学习一个IoU感知分类分数（IoU-Aware Classification Score，IACS）作为目标存在置信度和定位精度的联合表示。我们证明了稠密目标检测器可以基于IACS实现对候选检测更准确的排序。我们设计了一个新的损失函数训练稠密目标检测器来预测IACS，并提出了VFNet。

2023-01-19 22:07:52 1139 1

原创目标检测论文阅读：GFL算法笔记

单阶段检测器基本上是把目标检测分为稠密分类和定位（即边界框回归）两个过程。分类通常用Focal Loss优化，边界框定位一般在Dirac delta分布下学习。单阶段检测器最近的一个趋势是引入一个单独的预测分支来评估定位的质量，预测的质量通过促进分类来提升检测性能。本文深入研究了上述三个基本要素的表示：质量估计、分类和定位。在现有的实践中发现了两个问题：①训练和推理阶段中质量估计和分类的使用不一致；②定位时的Dirac delta分布不够灵活。为了解决这些问题，我们为这些元素设计了新的表示。

2023-01-17 22:08:13 3663 1

QT学生选课与成绩管理系统，含有学生、教师、管理员三个模块

空空如也