论文阅读笔记
文章平均质量分 89
记录论文阅读与学习
狼刀流
这个作者很懒,什么都没留下…
展开
-
论文阅读【检测】:商汤 ICLR2021 | Deformable DETR
DETR消除对目标检测中许多手工设计的组件的需求,同时表现出良好的性能。然而,由于Transformer注意模块在处理图像特征映射方面的局限性,它收敛速度慢特征空间分辨率有限。为了缓解这些问题,提出了 Deformable DETR,其注意力模块只关注参考周围的一小组关键采样点。可变形 DETR 可以比 DETR(尤其是在小物体上)获得更好的性能,训练时间减少了 10 倍。代码。原创 2024-07-25 23:03:48 · 1353 阅读 · 0 评论 -
论文阅读【检测】:Facebook ECCV2020 | DETR
提出了一种将目标检测视为直接集预测问题的新方法。简化了检测pipeline,有效地消除了许多手工设计的组件的需求,例如非最大抑制过程或锚生成,这些组件明确地编码了任务的先验知识。新框架的主要成分,是基于集合的全局损失,它通过二部匹配强制唯一的预测,以及变transformer encoder-decoder架构。给定一组固定的学习对象查询,DETR 推理对象和全局图像上下文的关系,以并行直接输出最终的预测集。原创 2024-07-24 15:17:46 · 617 阅读 · 0 评论 -
论文阅读【backbone】:Google 2019|MixConv: Mixed Depthwise Convolutional Kernels
文章目录前言一、Introduction总结前言论文地址:MixNet分层卷积算法在现代有效卷积算法中越来越受到重视,但其核大小却常常被忽视。在本文中,系统地研究了不同粒度的核的影响,并观察到结合多核的优点可以得到更高的准确率/效率。在此基础上,提出了一种新的混合深度卷积(mixconv) ,它自然地将多个核大小混合在一个卷积中。一、Introduction在本文中,重新回到这个基本问题: 较大的内核是否总能达到较高的精度? 自从在 alexnet中首次观察到,众所周知,每个卷积内核负责捕获一个原创 2022-01-07 14:15:19 · 1569 阅读 · 0 评论 -
论文阅读【backbone】:CVPR2018|Deep Layer Aggregation
文章目录前言一、Introduction二、Deep Layer Aggregation总结论文地址:Deep Layer Aggregation前言视觉识别需要丰富的表示,跨度从低到高的水平,从小到大小的尺度,并且从良好到粗糙的分辨率。即使在卷积网络中的特征深度,孤立的层也不够:复合和聚合这些epresentations 改善了网络在推断what和where。网络结构正在努力探索网络骨干网的许多维度,设计更深层次或更广泛的架构,但如何在网络中最佳的聚合层和块值得进一步关注。虽然跳跃连接已被合并为组原创 2021-08-25 20:44:52 · 356 阅读 · 0 评论 -
论文阅读【域泛化】:ECCV2018|Two at Once: Enhancing Learning and Generalization Capacities via IBN-Net
文章目录前言一、IntroductionContribution二、MethodResult总结链接:ECCV2018|Two at Once: Enhancing Learning and Generalization Capacities via IBN-Net.前言与现有的设计CNN体系结构以提高单个域的单个任务的性能和不可推广性的工作不同,IBN网络,一种新颖的卷积体系结构,它显著增强了CNN在一个域上的建模能力以及在另一个域上的推广能力,而无需微调。IBN-Net小心翼翼地将Instanc原创 2021-07-31 16:33:51 · 996 阅读 · 0 评论 -
论文阅读【轻量化网络】| ICCV2021:Bias Loss for Mobile Neural Networks
文章目录前言一、Introduction二、Objective Functions2.1.Bias Loss三、SkipNet Mobile Architectures四、Experiments总结论文链接:https://arxiv.org/abs/2107.11170.前言大型CNN和轻量型CNN在特征多样性上的差异很少被研究。具有低特征多样性的数据点可能无法提供足够数量的唯一描述符来进行有效预测;我们称之为随机预测。随机预测会对优化过程产生负面影响,并损害最终性能。本文建议通过重塑标准交叉熵来原创 2021-07-29 16:29:23 · 2090 阅读 · 2 评论 -
论文阅读【检测】CVPR2020 | Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Trai
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录Abstract一、Introduction二、使用步骤1.引入库2.读入数据总结欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与原创 2021-07-12 21:04:28 · 681 阅读 · 0 评论 -
论文阅读【人脸检测】| IJCB2017 :FaceBoxes: A CPU Real-time Face Detector with High Accuracy
文章目录前言一、Introduction二、FaceBoxes1.快速消化卷积层(RDCL)2.多尺度卷积层(MSCL)3.Anchor densification strategy总结前言论文地址:https://arxiv.org/pdf/1708.05234.pdf.有效的人脸检测模型往往在计算上是令人望而却步的。为了在CPU上实现实时速度,同时保持高性能应对这一挑战,FaceBox,在速度和准确性方面都具有优越的性能。它由快速消化卷积层(RDCL)和多尺度卷积层(MSCL)组成。RDCL的设原创 2021-06-06 21:45:02 · 461 阅读 · 2 评论 -
论文阅读【检测】AAAI2019 | M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、Introduction二、Proposed Method特征融合模块FFM细化U型模块TUM尺度特征聚合模块SFAM总结前言现在性能较好的一阶段物体探测器(如DSSD,RetinaNet,RefineDet)和两阶段物体探测器(如Mask RCNN,DetNet)都广泛使用了特征金字塔,从而缓解对象实例的比例大小变化带来的差异问题。尽管这些具有特征金字塔的物体探测器获得了不错的结果,但它们也有一定的局限性:它们只是简原创 2021-05-10 19:36:32 · 312 阅读 · 0 评论 -
论文阅读【检测】:ICCV2019 | Enriched Feature Guided Refinement Network for Object Detection
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、Introduction二、Method特征丰富方案级联优(细)化方案总结前言提出了一种单级检测框架,共同解决了多尺度目标检测和类不平衡问题。引入了一种简单而有效的特征丰富方案来产生多尺度的上下文特征,而不是设计更深层次的网络。为了增强单级检测器对多尺度检测的区分能力,进一步提出了一种级联求精方案,该方案首先在单级检测器的预测层中引入多尺度上下文特征。其次,级联精化方案通过精化锚点和丰富特征来改善分类和回归,解决了类不原创 2021-05-10 14:27:30 · 354 阅读 · 0 评论 -
论文阅读:CVPR2021 | Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
文章目录前言一、Introduction二、使用步骤1.引入库2.读入数据总结前言本文提出了一种新的视觉Transformer,称为Swin Transformer,它可以很好地作为计算机视觉的通用主干。将Transformer从语言转换为视觉的挑战来自这两个领域之间的差异,例如视觉实体的大小差异很大,图像中的像素与文本中的文字相比分辨率较高。为了解决这些差异,我们提出了一种分层转换器,其表示是通过移位窗口来计算的。移位窗口方案通过将自注意计算限制到非重叠的局部窗口,同时还允许跨窗口连接,带来了更高的原创 2021-04-21 17:21:16 · 2416 阅读 · 1 评论 -
论文阅读:CVPR2020 | MOCOV2:Improved Baselines with Momentum Contrastive Learning
文章目录前言一、Introduction二、Improved designs总结前言对比无监督学习最近显示出令人鼓舞的进展,例如在动量对比(MoCo)和SimCLR方面。在本文中,我们将通过在MoCo框架中实现SimCLR的两个设计改进来验证它们的有效性。通过对MoCo进行简单的修改-即使用MLP投影头和更多的数据增强-我们建立了更强大的基线,其表现优于SimCLR,并且不需要大量的训练批次一、Introduction最近关于图像的无监督表征学习的研究都集中在一个中心概念上,称为对比学习。结果是令原创 2021-04-19 11:33:46 · 1696 阅读 · 0 评论 -
论文阅读:CVPR2020 | MoCo:Momentum Contrast for Unsupervised Visual Representation Learning
文章目录前言一、Introduction二、MethodContrastive Learning as Dictionary Look-upMomentum ContrastDictionary as a queue.Momentum update三、解析总结前言论文链接: https://arxiv.org/pdf/1911.05722.pdf.提出了一种无监督视觉表征学习的动量对比(MoCo)方法。从对比学习[29]作为字典查找的角度出发,我们建立了一个带有队列和移动平均编码器的动态字典。这使得原创 2021-04-16 15:52:53 · 705 阅读 · 0 评论 -
论文阅读:CVPR2021 | Distribution Alignment: A Unified Framework for Long-tail Visual Recognition
文章目录前言一、Introduction二、Related WorksOne-stage Imbalance LearningTwo-stage Imbalance Learning三、ApproachDistribution AlignmentAdaptive Calibration FunctionAlignment with Generalized Re-weighting总结前言论文链接: https://arxiv.org/pdf/2103.16370.pdf.尽管深度神经网络最近取得了成原创 2021-04-14 15:32:19 · 2511 阅读 · 2 评论 -
论文阅读: ICLR 2021 | AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
文章目录前言一、METHOD总结前言虽然Transformer架构已经成为自然语言处理任务的事实标准,但它在计算机视觉方面的应用仍然有限。在视觉上,注意力要么与卷积网络结合使用,要么用来替换卷积网络的某些组件,同时保持它们的整体结构不变。作者表明,这种对CNN的依赖是不必要的,直接应用于图像块序列的纯Transformer可以很好地执行图像分类任务。在对大量数据进行预训练并传输到多个中型或小型图像识别基准(ImageNet、CIFAR-100、VTAB等)时,视觉Transformer(VIT)与最先原创 2021-04-13 16:54:11 · 449 阅读 · 0 评论 -
论文阅读:CVPR2021 | RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via Instance
文章目录前言一、Introduction二、Proposed MethodInstance Whitening LossMargin-based relaxation of whitening lossSeparating Covariance ElementsNetwork architecture with proposed ISW loss总结前言论文链接: https://arxiv.org/abs/2103.15597.提高深度神经网络对不可见领域的泛化能力对于现实世界中的安全关键应用(如原创 2021-04-12 16:16:31 · 2801 阅读 · 2 评论 -
论文阅读:CVPR2019 | GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond
文章目录前言一、Introduction二、Non-local NetworksMethod总结前言论文地址:https://arxiv.org/abs/1904.11492?context=cs.LG.Non-Local Network(NLnet)通过将特定于查询的全局上下文聚合到每个查询位置,为捕获远程依赖项提供了一种开创性的方法。然而,通过严格的实证分析发现,对于图像中不同的查询位置,Non-Local Network建模的全局上下文几乎是相同的。在本文中,作者利用这一发现创建了一个基于查询原创 2021-04-08 16:48:08 · 2597 阅读 · 1 评论 -
论文阅读:CVPR2021 | Involution: Inverting the Inherence of Convolution for Visual Recognition
文章目录前言一、Introduction二、Involution三、self-attention的相关性四、Rednet网络搭建总结前言卷积已经成为现代神经网络的核心组成部分,引发了视觉深度学习的浪潮。在这项工作重新思考了视觉任务的标准卷积的内在原理,特别是空间不变性和通道特异性。相反,作者提出了一种新的用于深度神经网络的原子操作,通过颠倒前面提到的卷积设计原则,称为内卷。此外,我们还揭开了最近流行的自我注意运算符的神秘面纱,并将其归入我们的内卷家族,作为一个过于复杂的实例化。本文提出的内卷算子可以.原创 2021-04-07 17:17:29 · 2063 阅读 · 0 评论 -
论文阅读:2020 | On Feature Normalization and Data Augmentation
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、Introduction二、使用步骤1.引入库2.读入数据总结前言论文链接: https://arxiv.org/pdf/2002.11102.pdf.现代神经网络训练在很大程度上依赖于数据增强来提高泛化能力。在标签保留增强方法取得初步成功后,最近出现了对标签扰动方法的兴趣激增,这种方法将训练样本中的特征和标签结合在一起,以平滑学习的决策面。在本文中,提出了一种新的增强方法,该方法利用提取的一阶和二阶矩,并通过特征归原创 2021-04-01 12:10:08 · 1514 阅读 · 0 评论 -
论文阅读:CVPR2018 | PANET:Path Aggregation Network for Instance Segmentation
文章目录前言一、Introduction二、Framework1.Bottom-up Path Augmentation2.Adaptive Feature PoolingAdaptive Feature Pooling StructureMask Prediction Structure三、result四、总结前言信息在神经网络中的传播方式是非常重要的。在本文中,我们提出了路径聚合网络(PANET),旨在提高基于提案的实例分割框架中的信息流。具体地说,通过自下而上的路径增强,在较低层使用精确的定位信原创 2021-03-31 20:30:27 · 732 阅读 · 0 评论 -
论文阅读:CVPR2019 | CSPNet: A New Backbone that can Enhance Learning Capability of CNN
文章目录前言一、Introduction二、MethodCross Stage Partial NetworkPartial Dense BlockPartial Transition LayerExact Fusion Model三、 result总结前言神经网络使最先进的方法在计算机视觉任务(如目标检测)上取得了令人难以置信的结果。然而,这样的成功在很大程度上依赖于昂贵的计算资源,这阻碍了拥有廉价设备的人们欣赏先进技术。本文从网络结构的角度出发,提出了跨级部分网络(Cross Stage Part原创 2021-03-31 15:11:06 · 836 阅读 · 0 评论 -
论文阅读:CVPR2019 | CenterNet :Objects as Points
文章目录前言一、Introduction?二、网络结构三、Detection总结前言论文链接: https://arxiv.org/pdf/1904.07850.pdf.检测将对象标识为图像中的轴对齐框。大多数成功的对象探测器枚举了几乎全部的潜在对象位置列表并分类了每个潜在的对象位置。这是浪费,效率低下,并且需要额外的后处理。在本文中,我们采取了不同的方法。我们将一个对象塑造为单点 - 其边界框的中心点。我们的探测器使用关键点估计来查找到所有其他对象属性的中心点和回归,例如大小,3D位置,方向,甚.原创 2021-03-30 14:16:24 · 543 阅读 · 0 评论 -
论文阅读:ECCV 2020 | Self-Challenging Improves Cross-Domain Generalization
文章目录前言Introduction总结论文地址:https://arxiv.org/pdf/2007.02454v1.pdf.代码:https://github.com/DeLightCMU/RSC前言卷积神经网络(CNN)通过激活与标签相关的显性特征来进行图像分类。当训练和测试数据处于类似的分布时,它们的主导功能类似,导致不错的测试性能。尽管如此,在用不同的分布测试时,性能仍然是未满足的,导致跨域图像分类中的挑战。我们介绍了一个简单的培训启发式, Representation Self-Cha原创 2021-03-23 16:43:27 · 1431 阅读 · 2 评论 -
论文阅读:CVPR 2021 | KeepAugment
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言1、Introduction?2、Data Augmentation and its Trade-offs3、Method总结前言数据增强是培训最先进的深度学习系统的基本技术。在本文中,经验显示数据增强可能会引入嘈杂的增强示例,从而损害了在推理期间在未分配数据上的性能。为了减轻这个问题,文中提出了一种简单但高效的方法,被称为KeepAugment,增加了增强的图像保真度。该想法首先使用显着图来检测原始图像上的重要区域,然后原创 2021-03-22 14:32:59 · 965 阅读 · 0 评论