论文笔记
文章平均质量分 80
预读论文记录
To_1_oT
机器学习、深度学习、计算机视觉,欢迎学习交流。
展开
-
论文笔记之Detecting Human-Object Interaction via Fabricated Compositional Learning
解决HOI的长尾分布问题,通过引入一个物体制造器来生成有效的物体表示,然后将动词与虚构的物体进行组合以组成新的HOI样本,这样能够生成稀有和unseen类别的大规模HOI样本,从而减轻长尾问题。CVPR2021论文地址:https://arxiv.org/abs/2103.08214代码地址:https://github.com/zhihou7/HOI-CL1. 总述从图像/视频中推断人与物体之间的关系的人物交互(HOI)检测是了解高级场景的一项基本任务。 但是,HOI检测通常会遇到交互类别的.原创 2021-04-27 11:24:27 · 1133 阅读 · 0 评论 -
论文笔记之Glance and Gaze: Inferring Action-aware Points for One-Stage Human-ObjectInteraction Detection
解决了一阶段方法不能动态搜索交互的判别线索的问题,提出glance和gaze步骤,前者快速判断特征图中每个点是不是交互点,后者进一步细化。CVPR2021论文地址:https://arxiv.org/abs/2104.05269代码地址:https://github.com/SherlockHolmes221/GGNet1. 总述现有的一阶段模型通常从检测预定义的交互区域或点开始,然后仅关注这些区域以进行交互预测。 因此,他们缺乏能够动态搜索判别线索的推理步骤。 在本文中,我们提出了一种新颖的.原创 2021-04-15 20:20:05 · 1057 阅读 · 0 评论 -
论文笔记之Removing the Background by Adding the Background: Towards Background Robust Self-supervised Vid
提出背景擦除(Background Erasing)方法来减轻模型对背景的依赖,从而使模型更关注动作变化。CVPR2021论文地址:https://arxiv.org/abs/2009.057691. 总述自监督学习通过对数据本身的监督,在提高深层神经网络的视频表现能力方面显示出巨大的潜力。然而,目前的一些方法往往会存在着背景欺骗,即预测结果高度依赖于视频背景而不是运动,使得模型容易受到背景变化的影响。背景欺骗的图示:在真实的世界中,一个动作可以在不同的地点发生,而不是某个场景下只是某种动作.原创 2021-03-24 20:49:36 · 831 阅读 · 1 评论 -
论文笔记之ACTION-Net: Multipath Excitation for Action Recognition
本文提出一个时空、通道、运动激励模块来嵌入到2D CNN 中以解决目前的难题,即2D CNN虽然计算量小但不能捕捉时间关系而3D CNN可以捕捉空间关系但计算量大。CVPR2021论文地址:https://arxiv.org/abs/2103.07372代码地址:https://github.com/V-Sense/ACTION-Net1. 总述时空、通道和运动模式是视频动作识别中三种重要的互补信息。传统的2D CNN计算量小,但不能捕捉时间关系;3D CNN可以获得良好的性能,但计算量大。.原创 2021-03-24 11:07:22 · 1355 阅读 · 3 评论 -
论文笔记之Read Like Humans: ABINet for Scene Text Recognition
利用语言模型帮助场景文本识别,提出了一种基于双向特征表示的双向完形填空网络语言模型(BCN),重点解决低质量图像的文本识别问题。CVPR2021 论文地址:https://arxiv.org/abs/2103.06495代码地址:https://github.com/FangShancheng/ABINet1. 总述语言知识对场景文本识别有很大的帮助。然而,如何在端到端的深度神经网络中有效地建模语言规则存在着挑战。本文作者认为语言模型的有限能力来自:1)隐式语言建模;2)单向特征表示.原创 2021-03-18 14:57:23 · 6769 阅读 · 3 评论 -
论文笔记之Learning Asynchronous and Sparse Human-Object Interaction in Videos
视频中人物交互活动是稀疏的、异步的,且相互影响。本文提出稀疏异步交互图网络ASSIGN来识别视频中的交互。CVPR20211. 总述已有方法预设视频中活动的时间结构,限制了活动检测的灵活性,本文发现活动的时间结构和内容是紧密耦合的,可以在联合检测中相互支持以获得最优解。所以本文引入异步稀疏交互图网络ASSIGN来同时进行时序结构的检测和活动内容的检测。异步代表着更灵活地适应复杂的场景;稀疏代表着更关注于内容本身。ASSIGN的原则是,每个交互活动实体在视频中都有独立的生命,在视频中,它以自己的节.原创 2021-03-12 17:36:13 · 339 阅读 · 0 评论 -
论文笔记之LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal Networks for HOI in videos
视频人物交互检测,首先利用图卷积网络学习空间特征,然后利用RNN学习帧间时间线索,接着利用注意力从帧间时间线索中学习片段间时间线索,最后细化回归人的活动和物体的启示。ACM Multimedia-20201. 总述由于多方面的原因,学习视频中的人-物交互是一个挑战性的问题。首先,该模型需要考虑场景中物体相对于人的方向变化。这使得基于图像的方法很难将人与物结合的RoI特征扩展到视频场景中。其次,大规模视频数据集(除了CAD-120)的难获取性使得很难训练出一个通用的、在现实场景视频中表现良好的HOI.原创 2021-03-12 17:14:26 · 443 阅读 · 3 评论 -
论文笔记之TDAF: Top-Down Attention Framework for Vision Tasks
设计了一种新颖的模块来融合全局注意力信息和局部注意力信息获得了较大的提升。AAAI2021论文地址:https://arxiv.org/abs/2012.072481. 总述本文的出发点在于作者认为人类的视觉注意力是一种类似于top-down的机制(人往往先关注一个物体的轮廓,然后再去关注物体的细节),而现有工作中却没有很好地来探索这个机制,因此作者希望可以提出一种综合global和local信息的注意力机制,以更好地帮助网络提取物体特征。从此出发,作者提出自上而下的注意力框架(TDAF)来捕.原创 2021-01-30 22:39:31 · 577 阅读 · 1 评论 -
场景文本识别—Mask TextSpotter v1 & v2 & v3
V1:以mask rcnn为基础,基于分割来进行端到端的文本识别。mask分支不仅能预测分割图来分割文本区域还可以预测字符概率图。V2:在v1基础上在识别部分加入空间注意力以提升框架的文本识别能力。V3:在v2基础上又加入SPN,替换RPN,用以生成proposal,生成的proposal更精准。1. Mask TextSpotter v11.1 总体结构总体主要包括两个部分:一个基于实例分割的检测部分和一个基于字符分割的识别部分。Backbone部分是ResNet-50+FPN,首先RP.原创 2020-12-25 16:16:12 · 2526 阅读 · 1 评论 -
MANGO: A Mask Attention Guided One-Stage Scene Text Spotter
提出了基于mask注意力(实例级别和字符级别)引导的单阶段文本识别框架,不需要使用RoI操作。AAAI-2021论文地址:https://arxiv.org/abs/2012.043501. 总述目前大多数方法使用RoI操作,将检测和识别部分连接在一起形成一个端到端的文本识别框架。但是这种两阶段框架识别部分严重依赖于检测结果,这就需要检测部分获得精确的文本区域,而这样则:需要精确的标注,尤其对于不规则文本(多边形)需要更多的时间和精力;很难保证检测部分获得了文本区域是后继识别任务的最佳形式.原创 2020-12-22 11:27:24 · 975 阅读 · 4 评论 -
场景文本检测识别— ABCNet:Real-time Scene Text Spotting with Adaptive Bezier-Curve Network
提出Bezier曲线来CVPR2020论文地址:https://arxiv.org/pdf/2002.10200.pdf代码地址:https://github.com/aim-uofa/AdelaiDet1. 总述原创 2020-12-17 16:33:16 · 1706 阅读 · 2 评论 -
场景文本识别之Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting
ECCV2020论文地址:https://arxiv.org/abs/2007.09482原创 2020-12-17 10:45:41 · 1065 阅读 · 1 评论 -
端到端场景文本检测识别:Character Region Attention For Text Spotting
CVPR2020论文地址:https://arxiv.org/pdf/2007.096291. 总述场景文本检测器由文本检测和识别模块组成。典型的体系结构将检测和识别模块放置在单独的分支中,并且通常使用RoI pooling来让分支共享视觉特征。 但是,当采用使用基于注意力的解码器的检测器和代表字符区域空间信息的检测器时,仍然存在在模块之间建立更多互补连接的机会。 这是可能的,因为两个模块共享一个共同的子任务,该任务将查找字符区域的位置。 基于这些见解,我们构建了紧密耦合的单管道模型。 通过利用识.原创 2020-12-14 15:56:21 · 1494 阅读 · 2 评论 -
基于深度学习的场景文本检测和识别(Scene Text Detection and Recognition)综述
1. 引言文字是人类最重要的创作之一,它使人们在时空上可以有效地、可靠的传播或获取信息成为可能。场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索、即时翻译、机器人导航、工业自动化等领域。一个场景文字识别检测示例:目前,场景文字检测和识别主要存在3个难点:自然场景中文本多样性和变异性:文本的颜色、大小、字体、形状、方向、宽高比等属性变化较多。背景的复杂性和干扰:背景存在与文本相似的形状的物体(例如砖块、窗户、交通标志等);存在遮挡问题。不完善的成像条件(低分辨率、失真、模糊、原创 2020-12-04 18:38:58 · 12310 阅读 · 3 评论 -
论文笔记之CenterNet Heatmap Propagation for Real-time Video Object Detection
借助CenterNet以热图的形式传播先前可靠的长期检测以提高后面的图像的结果ECV2020论文地址:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700222.pdf1. 总述当直接用静态图像目标检测器应用于视频流时,由于运动模糊或物体外观不完整而导致的采样图像质量问题(视频通常包含移动的物体或在摄影机移动时表示运动。这会导致低图像质量)对检测性能有不良影响。然而,视频中包含时间信息,例如同一物体在连续帧中的一致性。利用.原创 2020-11-25 10:42:23 · 1511 阅读 · 0 评论 -
YOLOv4—object detection tricks set
GitHub地址:https://github.com/AlexeyAB/darknet论文地址:https://arxiv.org/pdf/2004.10934.pdf1.Backbone&Neck&Head(1)CSPDarkNet参考:https://blog.csdn.net/haha0825/article/details/106102762(2)NeckAdditional blocks: SPP, ASPP, RFB, SAMPath-aggregat.原创 2020-11-23 20:12:02 · 1210 阅读 · 0 评论 -
论文笔记之Point-Set Anchors for Object Detection, Instance Segmentation and Pose Estimation
用一组点设置anchor形状(矩形、人形),然后回归这些点来完成不同的任务(检测、分割、人体姿态估计)。ECCV2020论文地址:https://arxiv.org/abs/2007.028461. 总述最近的一种目标检测和人体姿态估计方法是从物体或人的中心点回归边界框或人体关键点。虽然这种中心点回归是简单而有效的,但由于物体变形和尺寸/方向变化,提取的图像特征包含的信息是有限的(关键点可能不在中心点附近),来预测远处的关键点或边界框边界是不太够的。为了便于推断,作者从一组位于更有利位置的点执行.原创 2020-11-21 16:04:08 · 737 阅读 · 0 评论 -
人物交互(human object interaction)论文汇总-2020年
1. Learning Human-Object Interaction Detection using Interaction Points1.1 总述大多数现有的HOI检测方法都是以实例为中心的,其中基于外观特征和粗糙的空间信息来预测所有可能的人-物体之间的交互。作者认为,仅外观特征不足以捕获复杂的人与物体的相互作用。因此,在本文中,作者提出了一种新颖的全卷积方法,该方法直接检测人与物体之间的相互作用。 网络会预测交互点,这些交互点可以直接对交互进行定位和分类。与密集预测的交互向量配对,这些交互与人原创 2020-11-08 11:39:05 · 11281 阅读 · 1 评论 -
人物交互(human object interaction)论文汇总-2019年
1. Relation Parsing Neural Network for Human-Object Interaction Detection1.1 总述提出一种关系解析神经网络RPNN,由两部分组成:物体-身体部位图和人体-身体部位图,前者捕获身体部位与周围物体的关系,后者推断人体与身体部位的关系,并组合身体部位上下文信息以预测动作。这两个图由动作传递机制关联。总的来说,网络基于人的特征预测动作发生的位置(参与交互物体的位置)的密度;基于物体特征预测每个动作的物体与人之间交互的概率。1.2 网原创 2020-11-08 10:54:01 · 3278 阅读 · 0 评论 -
人物交互(human object interaction)论文汇总-2018年
1. Detecting and Recognizing Human-Object Interactions1.1 总述中心思想是以人为中心。假设是一个人的外表信息(姿态、衣服、动作等)是确定与他们交互的物体的有力线索(人的外表信息对于定位参与交互的物体可能处于何处是很有帮助的,根据此可以进一步缩小参与交互的目标物体的搜索空间)。为了利用这个线索,本文的模型学习了根据检测到的人和人的外表信息来预测特定动作的物体位置的密度。1.2 网络结构主要分为三个分支:目标检测分支、人为中心分支、交互分支。其中原创 2020-11-08 10:35:58 · 5415 阅读 · 0 评论 -
论文笔记之BorderDet
基于FCOS,提出BorderAlign用于提取物体边界极限点的特征(四个点,物体的最上/下/左/右端的点)。ECCV2020 Oral论文地址:https://arxiv.org/abs/2007.110561. 摘要密集的目标检测器依赖于滑动窗口方式在常规图像网格上预测物体。 同时,采用网格点上的特征图来生成边界框预测。点要特征使用方便,但可能缺少明确的边界信息以进行精确定位。 在本文中,作者提出了一种简单有效的运算符,称为Border-Align,以从边界的极端点提取“边界特征”以增强点特.原创 2020-09-19 18:46:34 · 672 阅读 · 0 评论 -
论文笔记之两阶段anchor-free目标检测器:CornerProposal Network for Anchor-free,Two-stage Object Detection
提出一种基于anchor-free的两阶段的目标检测的方法:首先通过寻找潜在的角点以及关键点组合(corner keypoints)找到大量的object proposals,然后通过单独的分类阶段给每个proposals分配一个类别标签。ECCV2020接收论文地址:https://arxiv.org/abs/2007.138161. 摘要本文提出了一种新颖的Anchor-free两阶段框架Corner Proposal Network(CPN),该框架首先通过查找潜在的角点关键点组合来提取多.原创 2020-09-13 15:24:57 · 2125 阅读 · 0 评论 -
人体姿态估计综述(Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods)
1. 总述1.1 应用电影和动画虚拟现实人机交互视频监控医疗救助自动驾驶运动动作分析1.2 挑战人体姿势估计所面临的挑战主要体现在三个方面:灵活的身体构造表示复杂的关节间关节和高自由度肢体,这可能会导致自我闭塞或罕见/复杂的姿势。身体外观包括不同的衣服和彼此相似的部分。复杂的环境可能会导致前景遮挡,附近人遮挡或类似的部分,各种视角以及相机视图中的截断。1.3 已有的方法根据是否使用设计的人体模型,可以将这些方法分为生成方法(基于模型)和判别方法(无模型)。原创 2020-09-06 10:02:53 · 6380 阅读 · 0 评论 -
论文笔记之Unipose
提出基于瀑布模型的空洞空间池化模块,获得了较大的视野和多尺度特征以很好的用于姿态估计且不需要基于统计或几何方法的后分析。CVPR2020接收论文地址:https://arxiv.org/abs/2001.080951.摘要作者基于“Waterfall” Atrous Spatial Pooling 体系结构,提出了UniPose。 利用标准CNN架构的当前姿态估计方法在很大程度上依赖于统计后处理或预定义的anchor 姿态进行联合定位。 UniPose结合了上下文分割和联合定位功能,可以在不依赖.原创 2020-09-01 19:03:02 · 1594 阅读 · 0 评论 -
论文笔记之CentripetalNet
提出使用向心偏移来对同一实例中的角点进行配对,此外又设计了一个( corner-star deformable convolution network)十字星可变形卷积网络来适应corner特征。CVPR2020接收论文地址:https://arxiv.org/pdf/2003.09119.pdf代码地址:https://github.com/KiveeDong/CentripetalNet1. 摘要基于关键点的检测器取得了很好的效果,不过匹配错关键点的情况还是经常发生,并极大地影响了检测器的.原创 2020-08-20 20:32:44 · 772 阅读 · 0 评论 -
论文笔记之Non-Local
1. 摘要卷积运算和循环运算都是一次处理一个本地邻居的构造块,即局部操作。而本文的non-local操作是捕获远程依赖关系的。受计算机视觉中经典的非局部均值方法的启发,non-local运算将某个位置的响应计算为所有位置的特征的加权总和。 该构建块可以插入许多计算机视觉体系结构中。 在视频分类的任务、在静态图像识别中,non-local模型都获得了较大的提升。2. 引言在深度神经网络中,捕获远距离依赖至关重要。 对于序列化数据(例如,语音,语言),循环操作是远程依赖建模的主要解决方案。 对于图像数据,原创 2020-08-17 16:29:07 · 2993 阅读 · 0 评论 -
论文笔记之Learning Human-Object Interaction Detection using Interaction Points
直接预测人-物的交互点和交互向量(用于分组),再与人/物检测结果关联得到最终结果。CVPR2020接收论文地址:https://arxiv.org/abs/2003.140231. 摘要理解人与物体之间的相互作用是视觉分类的基本问题之一,也是实现详细场景理解的重要步骤。人与物体之间的交互(HOI)检测力求既定位人与物体,又确定它们之间的复杂交互。 大多数现有的HOI检测方法都是以实例为中心的,其中基于外观特征和粗糙的空间信息来预测所有可能的人-物体之间的交互。 作者认为,仅外观特征不足以捕获复杂.原创 2020-07-25 11:23:43 · 2639 阅读 · 0 评论 -
论文笔记之Transferable Interactiveness Knowledge for Human-Object Interaction Detection
利用交互性学习网络在多个数据集上学习交互性知识,然后根据输入得出是否有交互,从而抑制非交互的rem-物对。CVPR2019录用论文地址:https://arxiv.org/abs/1811.082641. 摘要原创 2020-07-25 09:24:41 · 989 阅读 · 2 评论 -
论文笔记之PPDM(Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection)
CVPR2020接收论文地址:https://arxiv.org/pdf/1912.12898v1.pdf1. 摘要我们提出了一种单级人机交互(HOI)检测方法,该方法在单个Titan XP GPU上以37 fps的速度在HICO-DET数据集上优于现有的所有方法。这是第一种实时检测HOI的方法。传统的HOI检测方法分为两个阶段,即人体目标建议生成和方案分类。它们的有效性和效率受到顺序和独立体系结构的限制。本文提出了一种并行点检测与匹配(PPDM)HOI检测框架。在PPDM中,HOI被定义为一个.原创 2020-07-13 18:23:30 · 4278 阅读 · 0 评论 -
论文笔记之ST-GCN
1. 摘要动态人体骨架模型带有进行动作识别的重要信息,传统的方法通常使用手工特征或者遍历规则对骨架进行建模,从而限制了表达能力并且很难去泛化。作者提出了一个新颖的动态骨架模型ST-GCN,它可以从数据中自动地学习空间和时间的patterns,这使得模型具有很强的表达能力和泛化能力。在Kinetics和NTU-RGBD两个数据集上achieve substantial improvements over mainstream methods(与主流方法相比,取得了质的提升)。2. 相关工作...原创 2020-07-09 18:56:32 · 10883 阅读 · 1 评论 -
论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)
通过构造了对称的3×3×3卷积核来利用3D卷积学习时空特征,计算效率高。论文地址:http://vlg.cs.dartmouth.edu/c3d/c3d_video.pdf1. 摘要本文提出了一种简单而有效的时空特征学习方法,使用在大规模有监督视频数据集上训练的3D 卷积网络。本文的发现有三个方面:1)与2D ConvNets相比,3D ConvNets更适合于时空特征学习;2)一个在所有层都有3 × 3 × 3卷积核的同质结构是3D ConvNets的最佳性能结构;3)学习到的特征,即C3.原创 2020-06-26 11:21:58 · 3047 阅读 · 5 评论 -
论文笔记之Pose-aware Multi-level Feature Network for Human Object Interaction Detection
利用姿态线索来放大人体的有关局部区域来获得细粒度的信息被ICCV2019接收论文地址:https://arxiv.org/pdf/1909.084531.摘要推理人机交互是以人为中心的场景理解中的一个核心问题,由于人类对象配置的巨大变化、多个共生关系实例以及关系类别之间细微的视觉差异,检测这种关系对视觉系统提出了独特的挑战。为了解决这些问题,我们提出了一种多层次的关系检测策略,该策略利用人的姿势线索来捕捉关系的全局空间结构,并作为一种注意机制来动态地放大人的局部相关区域。具体来说,我们开发了一个.原创 2020-06-20 17:59:57 · 852 阅读 · 0 评论 -
论文笔记之ICAN
利用注意力模块,为每一个检测到的人或物体生成注意力图以突出显示与任务相关的区域被接收论文地址: https://arxiv.org/pdf/1808.10437.pdf1. 摘要本文提出了端到端可训练的以实例为中心的注意力模块用于学习使用人或外观突出信息区域的物体实例。我们的直觉是一个实例的外观(无论是人还是物)提供关于图像中我们应该注意的位置的提示。例如,到更好地确定一个人是否携带物体,应该将其注意力集中在物体上人的手周围的区域。另一方面,给一个图像中的自行车,参加对附近人的姿势有助于消除所涉.原创 2020-06-11 16:55:58 · 656 阅读 · 2 评论 -
论文笔记之TSN
基于长范围时间结构(long-range temporal structure)建模,结合了稀疏时间采样策略(sparse temporal sampling strategy)和视频级监督(video-level supervision)来保证使用整段视频时学习得有效和高效。被ECCV2016接收论文地址:https://arxiv.org/pdf/1608.00859.pdf1.摘要深卷积网络在静止图像的视觉识别中取得了巨大的成功。然而,对于视频中的动作识别,相对于传统方法的优势并不明显。本.原创 2020-06-07 16:18:33 · 1472 阅读 · 0 评论 -
论文笔记之Two-Stream Convolutional Networks for Action Recognition in Videos
双流网络的开篇之作,使用图像和光流两个分支训练,最终综合两个分支得到最终结果。被NIPS 2014接收论文地址:https://arxiv.org/abs/1406.21991. 摘要我们研究了用于训练视频中行为识别的深度卷积网络架构。这个挑战是捕捉静态帧中的外观和连续帧间的运动的互补信息。我们也旨在推广这个在数据驱动的学习框架中表现得最好的手工特征。本文一共做出了3个贡献:首先,本文提出了一个two-stream卷积网络架构,这个架构由时间和空间网络构成。然后,我们验证了,尽管是有限的.原创 2020-05-30 23:36:36 · 1237 阅读 · 0 评论 -
论文笔记之CSPNet
1. 摘要神经网络使最先进的方法能够在计算机视觉任务(如目标检测)上取得令人难以置信的结果。然而,这样的成功很大程度上依赖于昂贵的计算资源,这阻碍了拥有廉价设备的人们对先进技术的欣赏。本文从网络体系结构的角度出发,提出了跨阶段局部网络(CSPNet)来解决以往工作中需要大量推理计算的问题。我们将问题归结为网络优化中的重复梯度信息。所提出的网络通过从网络阶段的开始和结束集成特征映射来尊重梯度的可变性,在我们的实验中,在ImageNet数据集上,以同等甚至更高的精度减少了20%的计算,并且在MS上显著优于最新原创 2020-05-24 23:24:52 · 26875 阅读 · 11 评论 -
论文笔记之VOVNet
> 主要是解决DenseNet的检测速度慢效率低的问题。> 本文被CVPR2019收录原创 2020-05-20 15:31:10 · 2318 阅读 · 0 评论 -
论文笔记之D-IOU Loss
1. 摘要边界框回归是目标检测的重要一步,现有用的最多的是使用L1/2-norm函数来计算损失,但是他不是非常适合评估指标(IOU)。因此后面有了IOU Loss和G-IOU Loss,但是这两个依旧存在收敛慢、回归不准确的问题。本文结合预测框和真实框之间的标准化距离提出D-IOU Loss和C-IOU Loss,收敛速度比IOU Loss和G-IOU Loss快的多。本文主要工作:在IOU Loss基础上添加一个惩罚项以最小化预测框和真实框之间的标准化距离,从而加快收敛。考虑3个度量:重叠面积、原创 2020-05-13 17:04:27 · 1541 阅读 · 3 评论 -
论文笔记之ATSS
1. 摘要作者发现,采用相同的正负例选择策略时,无论是基于box(anchor-based)的检测器(本文以RetinaNet为例)还是基于关键点的(anchor-free)检测器(以FCOS为例),性能几乎一样,也就是说正负例的定义对于检测器性能是非常重要的,所以本文设计了一种新的自适应训练正负样本选择算法,对于anchor-based和anchor-free的检测器都有很大的提升。2. 本文方法2.1 RetinaNet和FCOS两者对比RetinaNet在特征图上每个点铺设多个anchor,原创 2020-05-10 16:25:35 · 408 阅读 · 0 评论 -
论文笔记之FCOS
1. 摘要本文提出了一种全卷积的一阶段目标检测器(FCOS),以按像素预测的方式解决目标检测,类似于语义分割。FCOS不含anchor,也不含proposal,所以他是Anchor-free的。总的来说,它是一种更加简单灵活的检测框架,速度快且检测精度高。2. 本文方法2.1 网络结构2.2 Fully Convolutional One-Stage Object Detector对于特征图的每个位置(x,y)映射回原图(s是步长)。不同于anchor-based检测器,本文直接回归该位置的目原创 2020-05-10 12:16:07 · 330 阅读 · 0 评论