晓飞的算法工程笔记-CSDN博客

原创 CeiT：商汤提出结合CNN优势的高效ViT模型 | 2021 arxiv

论文提出CeiT混合网络，结合了CNN在提取低维特征方面的局部性优势以及Transformer在建立长距离依赖关系方面的优势。CeiT在ImageNet和各种下游任务中达到了SOTA，收敛速度更快，而且不需要大量的预训练数据和额外的CNN蒸馏监督，值得借鉴来源：晓飞的算法工程笔记公众号。

2024-05-23 13:15:49 266

原创 PVT：特征金字塔在Vision Transormer的首次应用，又快又好 | ICCV 2021

论文设计了用于密集预测任务的纯Transformer主干网络PVT，包含渐进收缩的特征金字塔结构和spatial-reduction attention层，能够在有限的计算资源和内存资源下获得高分辨率和多尺度的特征图。从物体检测和语义分割的实验可以看到，PVT在相同的参数数量下比CNN主干网络更强大来源：晓飞的算法工程笔记公众号。

2024-05-22 13:28:05 608

原创 T2T-ViT：更多的局部结构信息，更高效的主干网络 | ICCV 2021

论文提出了T2T-ViT模型，引入tokens-to-token（T2T）模块有效地融合图像的结构信息，同时借鉴CNN结果设计了deep-narrow的ViT主干网络，增强特征的丰富性。在ImageNet上从零训练时，T2T-ViT取得了优于ResNets的性能MobileNets性能相当来源：晓飞的算法工程笔记公众号。

2024-05-20 12:26:39 666

原创 PeLK：101 x 101 的超大卷积网络，同参数量下反超 ViT | CVPR 2024

最近，有一些大型内核卷积网络的研究，但考虑到卷积的平方复杂度，扩大内核会带来大量的参数，继而引发严重的优化问题。受人类视觉的启发，论文提出了外围卷积，通过参数共享将卷积的复杂性从OK2降低到OlogK，有效减少 90% 以上的参数数量并设法将内核尺寸扩大到极限。在此基础上，论文提出了参数高效的大型内核网络（PeLK），将CNN的内核大小扩展到前所未有的101×101，性能的也在持续提升。来源：晓飞的算法工程笔记公众号。

2024-04-24 13:28:24 556

原创 FasterViT：英伟达提出分层注意力，构造高吞吐CNN-ViT混合网络 | ICLR 2024

论文设计了新的CNN-ViT混合神经网络FasterViT，重点关注计算机视觉应用的图像吞吐能力。FasterViT结合CNN的局部特征学习的特性和ViT的全局建模特性，引入分层注意力（HAT）方法在降低计算成本的同时增加窗口间的交互。在包括分类、对象检测和分割各种CV任务上，FasterViT在精度与图像吞吐量方面实现了SOTAHAT可用作即插即用的增强模块来源：晓飞的算法工程笔记公众号。

2024-04-23 13:23:49 891

原创 LORS：腾讯提出低秩残差结构，瘦身模型不掉点 | CVPR 2024

论文: LORS: Low-rank Residual Structure for Parameter-Efficient Network Stacking 在当前大模型繁荣的时代，一个普遍的问题是参数量大幅增加，这给训练、推理和部署带来了挑战。目前有各种方法来减少模型中的参数数量，例如知识蒸馏，将大型模型压缩为较小的模型，同时试图保持其性能，但仍可能导致模型容量的下降；剪枝，从模型中删除冗余参数，但会影响模型的稳定性；量化，降低模型参数的数值精度，降低存储和计算量，但可能会导致模型精度损失；参数共享，通

2024-04-22 13:15:14 899

原创 SURE：增强不确定性估计的组合拳，快加入到你的训练指南吧 | CVPR 2024

论文重新审视了深度神经网络中的不确定性估计技术，并整合了一套技术以增强其可靠性。论文的研究表明，多种技术（包括模型正则化、分类器改造和优化策略）的综合应用显着提高了图像分类任务中不确定性预测的准确性来源：晓飞的算法工程笔记公众号。

2024-04-19 12:03:06 601

原创 CPVT：美团提出动态位置编码，让ViT的输入更灵活 | ICLR 2023

论文提出了一种新的ViT位置编码CPE，基于每个token的局部邻域信息动态地生成对应位置编码。CPE由卷积实现，使得模型融合CNN和Transfomer的优点，不仅可以处理较长的输入序列，也可以在视觉任务中保持理想的平移不变性。从实验结果来看，基于CPE的CPVT比以前的位置编码方法效果更好来源：晓飞的算法工程笔记公众号。

2024-04-16 13:21:39 479

原创 DeiT：训练ImageNet仅用4卡不到3天的平民ViT | ICML 2021

论文基于改进训练配置以及一种新颖的蒸馏方式，提出了仅用ImageNet就能训练出来的Transformer网络DeiT。在蒸馏学习时，DeiT以卷积网络作为teacher，能够结合当前主流的数据增强和训练策略来进一步提高性能。从实验结果来看，效果很不错来源：晓飞的算法工程笔记公众号。

2024-04-16 13:09:53 832

原创 ViT：拉开Trasnformer在图像领域正式挑战CNN的序幕 | ICLR 2021

论文直接将纯Trasnformer应用于图像识别，是Trasnformer在图像领域正式挑战CNN的开山之作。这种简单的可扩展结构在与大型数据集的预训练相结合时，效果出奇的好。在许多图像分类数据集上都符合或超过了SOTA，同时预训练的成本也相对较低来源：晓飞的算法工程笔记公众号。

2024-04-12 13:17:51 776

原创 Dynamic ATSS：预测结果才是正负样本区分的最佳准则

论文认为预测结果能够更准确地区分正负样本，提出结合预测结果IoU和anchor IoU来准确地选择最高质量的预测结果进行网络训练。整体算法简单但十分有效，值得看看来源：晓飞的算法工程笔记公众号。

2024-04-10 13:29:34 986

原创 DS-Net：可落地的动态网络，实际加速1.62倍，快改造起来 | CVPR 2021 Oral

论文提出能够适配硬件加速的动态网络DS-Net，通过提出的double-headed动态门控来实现动态路由。基于论文提出的高性能网络设计和IEB、SGS训练策略，仅用1/2-1/4的计算量就能达到静态SOTA网络性能，实际加速也有1.62倍来源：晓飞的算法工程笔记公众号。

2024-04-09 13:19:45 914

原创 CondeseNetV2：清华与华为出品，保持特征的新鲜是特征复用的关键｜ CVPR 2021

论文提出SFR模块，直接重新激活一组浅层特征来提升其在后续层的复用效率，而且整个重激活模式可端到端学习。由于重激活的稀疏性，额外引入的计算量非常小。从实验结果来看，基于SFR模块提出的CondeseNetV2性能还是很不错的，值得学习来源：晓飞的算法工程笔记公众号。

2024-04-08 14:19:39 585

原创基于energy score的out-of-distribution数据检测，LeCun都说好 | NerulPS 2020

论文提出用于out-of-distributions输入检测的energy-based方案，通过非概率的energy score区分in-distribution数据和out-of-distribution数据。不同于softmax置信度，energy score能够对齐输入数据的密度，提升OOD检测的准确率，对算法的实际应用有很大的意义来源：晓飞的算法工程笔记公众号。

2024-04-01 12:06:25 652

原创 LiftPool：双向池化操作，细节拉满，再也不怕丢特征了 | ICLR 2021

论文参考信号处理中提升方案提出双向池化操作LiftPool，不仅下采样时能保留尽可能多的细节，上采样时也能恢复更多的细节。从实验结果来看，LiftPool对图像分类能的准确率和鲁棒性都有不错的提升，而对语义分割的准确性更能有可观的提升。不过目前论文还在准备开源阶段，期待开源后的复现，特别是在速度和显存方面结果来源：晓飞的算法工程笔记公众号。

2024-03-31 21:34:16 696

原创 EfficientNetV2：谷歌又来了，最小的模型，最高的准确率，最快的训练速度 | ICML 2021

论文基于training-aware NAS和模型缩放得到EfficientNetV2系列，性能远优于目前的模型。另外，为了进一步提升训练速度，论文提出progressive learning训练方法，在训练过程中同时增加输入图片尺寸和正则化强度。从实验结果来看，EfficientNetV2的效果非常不错。来源：晓飞的算法工程笔记公众号。

2024-03-31 21:25:44 1072

原创 Hybrid-PSC：基于对比学习的混合网络，解决长尾图片分类 | CVPR 2021

论文提出新颖的混合网络用于解决长尾图片分类问题，该网络由用于图像特征学习的对比学习分支和用于分类器学习的交叉熵分支组成，在训练过程逐步将训练权重调整至分类器学习，达到更好的特征得出更好的分类器的思想。另外，为了节省内存消耗，论文提出原型有监督对比学习。从实验结果来看，论文提出的方法效果还是很不错的，值得一看来源：晓飞的算法工程笔记公众号。

2024-03-29 12:20:18 662

原创 YOLOF：单层特征检测也可以比FPN更出色 | CVPR 2021

论文通过分析发现FPN的成功在于divide-and-conquer策略解决了目标检测的优化问题，借此研究设计了仅用单层特征预测的高效检测网络YOLOF。YOLOF在结构上没有很多花哨的结构，却在准确率、推理速度和收敛速度上都有不错的提升，相对于眼花缭乱的FPN魔改结构，十分值得学习来源：晓飞的算法工程笔记公众号。

2024-03-29 12:04:48 281

原创为什么SOTA网络在你的数据集上不行？来看看Imagnet结果的迁移能力研究

论文通过实验证明，ImageNet上的模型并不总能泛化到其他数据集中，甚至可能是相反的，而模型的深度和宽度也会影响迁移的效果。如果需要参考，可选择类别数与当前任务相似的数据集上的模型性能。论文通过大量的实验来验证猜想，虽然没有研究出如通过数据集间的某些特性来直接判断模型迁移效果这样的成果，但读下来还是挺有意思的来源：晓飞的算法工程笔记公众号。

2024-03-28 13:25:33 552

原创 OREPA：阿里提出训练也很快的重参数策略，内存减半，速度加倍 | CVPR 2022

论文提出了在线重参数方法OREPA，在训练阶段就能将复杂的结构重参数为单卷积层，从而降低大量训练的耗时。为了实现这一目标，论文用线性缩放层代替了训练时的BN层，保持了优化方向的多样性和特征表达能力。从实验结果来看，OREPA在各种任务上的准确率和效率都很不错来源晓飞的算法工程笔记公众号。...

2022-07-20 12:59:29 690 1

原创 GIT：斯坦福大学提出应对复杂变换的不变性提升方法 | ICLR 2022

论文对长尾数据集中的复杂变换不变性进行了研究，发现不变性在很大程度上取决于类别的图片数量，实际上分类器并不能将从大类中学习到的不变性转移到小类中。为此，论文提出了GIT生成模型，从数据集中学习到类无关的复杂变换，从而在训练时对小类进行有效增强，整体效果不错来源晓飞的算法工程笔记公众号。...

2022-07-18 12:55:45 586

原创看看谷歌如何在目标检测任务使用预训练权值 | CVPR 2022

论文: Dynamic Slimmable Network 模型速度在模型的移动端应用中十分重要，提高模型推理速度的方法有模型剪枝、权值量化、知识蒸馏、模型设计以及动态推理等。其中，动态推理根据输入调整其结构，降低整体计算耗时，包含动态深度和动态维度两个方向。如图2所示，动态网络自动在准确率和计算量之间trade-off，比静态的模型设计和剪枝方法要灵活。然而，论文发现包含动态维度的网络的实际运行速度大都不符合预期，主要原因在于动态剪枝后的稀疏卷积与当前硬件的计算加速不匹配。大多数卷积核的动态剪枝通过ze

2022-07-13 11:51:31 367

原创 DW：优化目标检测训练过程，更全面的正负权重计算 | CVPR 2022

论文:A Dual Weighting Label Assignment Scheme for Object Detection Anchor作为目标检测器训练的基础单元，需要被赋予正确的分类标签和回归标签，这样的标签指定(LA, label assignment)过程也可认为是损失权重指定过程。对于单个anchor的cls损失计算，可以统一地表示为： wposw_{pos}wpos和wnegw_{neg}wneg为正向权重和反向权重，用于控制训练的方向。基于这个设计，可以将LA方法分为两个大类：

2022-07-12 13:04:53 960

原创 PLC：自动纠正数据集噪声，来洗洗数据集吧 | ICLR 2021 Spotlight

论文: Learning with Feature-Dependent Label Noise: A Progressive Approach 在大型数据集中，由于标签的歧义以及标注者的大意，错误的标注是不可避免的。由于噪声对有监督训练的影响很大，所以在实际应用中研究如何处理错误的标注是至关重要的。一些经典方法对噪声进行独立同分布(i.i.d.)的假设，认为噪声与数据特征无关，有其自身的规律。这些方法要么直接预测噪声分布来分辨噪声，要么引入额外的正则项/损失项来分辨噪声。而另外一些方法则证明，常用的损失

2022-07-07 11:40:49 393

原创 ResNet-RS：谷歌领衔调优ResNet，性能全面超越EfficientNet系列 | 2021 arxiv

论文: Revisiting ResNets: Improved Training and Scaling Strategies 视觉模型的准确率由结构、训练方式和缩放策略共同决定，新模型的实验通常使用了新的训练方法和超参数，不能直接和过时的训练方法得到的旧模型结果进行对比。为此，论文打算在ResNet上验证不同的训练方法和缩放策略的影响。论文的主要贡献如下：模型的提升可以粗略地分为四个方向：结构改进、训练/正则方法、缩放策略和使用额外的训练数据。新结构的研究最受关注，神经网络搜索的出现使得结构研究

2022-07-06 11:32:40 1196

原创 RepLKNet：不是大卷积不好，而是卷积不够大，31x31卷积了解一下 | CVPR 2022

论文: Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs 在图像分类、特征学习等前置任务(pretext task)以及目标检测、语义分割等下游任务(downstream task)上，卷积网络的性能不断被ViTs（vision transformer）网络超越。人们普遍认为ViTs的性能主要得益于MHSA(multi-head self-attention)机制，并为此进行了很多研究，从不同的角度对比MHSA与

2022-07-05 11:38:33 334

原创 CA：用于移动端的高效坐标注意力机制 | CVPR 2021

论文: Coordinate Attention for Efficient Mobile Network Design 目前，轻量级网络的注意力机制大都采用SE模块，仅考虑了通道间的信息，忽略了位置信息。尽管后来的BAM和CBAM尝试在降低通道数后通过卷积来提取位置注意力信息，但卷积只能提取局部关系，缺乏长距离关系提取的能力。为此，论文提出了新的高效注意力机制coordinate attention，能够将横向和纵向的位置信息编码到channel attention中，使得移动网络能够关注大范围的位置信息

2022-07-04 11:36:07 4537 4

原创 GID：旷视提出全方位的检测模型知识蒸馏 | CVPR 2021

论文: General Instance Distillation for Object Detection 在目标检测应用场景中，模型的轻量化和准确率是同样重要的，往往需要在速度和准确率之间权衡。知识蒸馏(Knowledge Distillation)是解决上述问题的一个有效方法，将大模型学习到的特征提取规则(知识)转移到小模型中，提升小模型的准确率，再将小模型用于实际场景中，达到模型压缩的目的。目前的知识蒸馏方法大都针对分类任务，目标检测由于正负样本极度不平衡，直接将现有的方法应用到检测中一般都收益

2022-07-01 11:26:23 720

原创 GWD：基于高斯Wasserstein距离的旋转目标检测 | ICML 2021

论文: Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss 任意朝向的目标在检测数据集中无处不在，相对于水平的目标检测，旋转目标检测仍处于起步阶段。目前，大多数SOTA研究都集中于回归目标的旋转角度，而解决旋转角度则带来新的问题：i) 指标与损失不一致。ii) 旋转角度回归区间不连续。 iii) 方形问题。事实上，以上的问题还没有很好的解决方案，这会极大地影响模型的性能，特别是在角度在范围边界的情况。为

2022-06-29 11:58:44 1262

原创 PSS：你距离NMS-free+提点只有两个卷积层 | 2021论文

论文: Object Detection Made Simpler by Eliminating Heuristic NMS 当前主流的目标检测算法训练时大都一个GT对应多个正样本，使得推理时也会多个输出对应一个目标，不得不对结果进行NMS过滤。而论文的目标是设计一个简单的高性能全卷积网络，在不使用NMS情况下，能够进行完全的端到端训练。论文提出的方法十分简单，核心在于添加一个正样本选择分支(positive sample selector, PSS)。论文的主要贡献如下： FCOSPSS_{PS

2022-06-27 11:52:35 262

原创 CAP：多重注意力机制，有趣的细粒度分类方案 | AAAI 2021

论文: Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification 论文认为大多数优秀的细粒度图像识别方法通过发掘目标的局部特征来辅助识别，却没有对局部信息进行标注，而是采取弱监督或无监督的方式来定位局部特征位置。而且大部分的方法采用预训练的检测器，无法很好地捕捉目标与局部特征的关系。为了能够更好地描述图片内容，需要更细致地考虑从像素到目标到场景的信息，不仅要定位局部特征/目标的位置，还要从多个维度描述其丰富

2022-06-24 13:29:49 1809

原创 NFNet：NF-ResNet的延伸，不用BN的4096超大batch size训练 | 21年论文

论文: High-Performance Large-Scale Image Recognition Without Normalization 目前，计算机视觉的大部分模型都得益于深度残差网络和batch normalization，这两大创新能够帮助训练更深的网络，在训练集和测试集上达到很高的准确率。特别是batch normalization，不仅能够平滑损失曲线，使用更大的学习率和batch size进行训练，还有正则化的作用。然而，batch normalization并不是完美，batch n

2022-06-23 13:07:59 837

原创 NF-ResNet：去掉BN归一化，值得细读的网络信号分析 | ICLR 2021

论文: Characterizing signal propagation to close the performance gap in unnormalized ResNets BatchNorm是深度学习中核心计算组件，大部分的SOTA图像模型都使用它，主要有以下几个优点：然而，尽管BatchNorm很好，但还是有以下缺点：目前，很多研究开始寻找替代BatchNorm的归一化层，但这些替代层要么表现不行，要么会带来新的问题，比如增加推理的计算消耗。而另外一些研究则尝试去掉归一化层，比如初始化

2022-06-22 13:10:16 742

原创 Involution：空间不共享？可完全替代卷积的高性能算子 | CVPR 2021

论文: Involution: Inverting the Inherence of Convolution for Visual Recognition 论文认为卷积操作有三个问题：为了解决上述的问题，论文提出了与卷积有相反属性的操作involution，核参数在空间上面特异，而在通道上面共享，主要有以下两个优点：一组involution核可表示为H∈RH×W×K×K×G\mathcal{H}\in \mathbb{R}^{H\times W\times K\times K\times G}H∈

2022-06-20 13:23:36 688 1

原创 GFLV2：边界框不确定性的进一步融合，提点神器 | CVPR 2021

论文: Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection GFL系列方法将bbox的四个值预测转化为四个分布预测，能够在输出预测值的同时根据分布判断预测值的预测可靠性。如图1c和图1d所示，高可靠性的预测结果的分布较为集中，低可靠性的预测结果的分布则较为分散。另外，论文将GFL的每个bbox的四个分布的最大值的均值与实际的IoU进行了对比，发现有较高的

2022-06-17 11:57:10 765

原创 MobileNext：打破常规，依图逆向改造inverted residual block | ECCV 2020

论文: Rethinking Bottleneck Structure for Efficient Mobile Network.pdf[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0fn9boFK-1655355550121)(https://files.mdnice.com/user/5240/37d633c4-354b-4680-93a3-562a744c0746.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ARXP8N8U-

2022-06-16 12:59:25 1490

原创 OWOD：开放世界目标检测，更贴近现实的检测场景 | CVPR 2021 Oral

论文: Towards Open World Object Detection 常见的目标检测算法都针对特定的数据集进行训练，学习固定数量的类别，用于特定的场景。而论文则讨论一个更现实的场景，开放世界目标检测(Open World Object Detection)。在这个场景中，算法需要解决非目标误识别问题以及具备增量学习的能力。将检测模型应用到开放世界中，除了识别指定类别的目标，还要将非目标类别区别为Unknow，称为Open Set Learning，这需要很强的泛化能力。而Open World

2022-06-15 13:10:52 2166 3

原创 DynamicHead：基于像素级路由机制的动态FPN | NIPS 2020

论文: Fine-Grained Dynamic Head for Object Detection 在目标检测算法的研究中，特征金字塔FPN是十分重要的结构，能够很好地表达目标的多尺度特征。近期也有很多FPN结构的改进研究，比如手工设计的PANet、FPG以及自动搜索的NAS-FPN、Auto-FPN。但上述的改进研究有两点问题：为了解决上述的问题，论文提出了细粒度动态detection head，能够基于路由机制动态地融合不同FPN层的像素级局部特征进行更好的特征表达。该方法参考了粗粒度的动态网络

2022-06-14 13:30:39 430

原创 RepVGG：VGG，永远的神！ | CVPR 2021

论文: RepVGG: Making VGG-style ConvNets Great Again 目前，卷积网络的研究主要集中在结构的设计。复杂的结构尽管能带来更高的准确率，但也会带来推理速度的减慢。影响推理速度的因素有很多，计算量FLOPs往往不能准确地代表模型的实际速度，计算量较低的模型不一定计算更快。因此，VGG和ResNet依然在很多应用中得到重用。基于上述背景，论文提出了VGG风格的单分支网络结构RepVGG，能够比结构复杂的多分支网络更优秀，主要包含以下特点：当然，想要直接训练简单

2022-06-13 12:06:26 1071

原创 SoftPool：基于Softmax加权的池化操作 | 2021新文

SoftPool使用softmax进行加权池化，能够保持特征的表达性并且是可微操作。从性能和准确率来看，SoftPool是目前的常规池化方法的一个不错的替代品来源：晓飞的算法工程笔记公众号论文: Refining activation downsampling with SoftPool论文地址：https://arxiv.org/abs/2101.00440v2论文代码：https://github.com/alexandrosstergiou/SoftPoolIntroduct.

2022-04-29 13:11:40 1836

集体智慧编程（中文版）.pdf

JSon的完整jar包

linux程序设计（第三版）.pdf

C语言编程经典100例

空空如也