论文
文章平均质量分 93
譕訫_
自学ing.....
展开
-
D&T(Detect to Track and Track to Detect)论文详读
abstract 近些年,视频目标分类与检测领域为了达到更高的准确率,不断融合各种复杂的处理方式,最终的网络结构也变得越来越复杂。本文提出一个名为ConvNet的结构,该结构比较简洁,且可以有效的进行目标跟踪和分类。本文的contribute:ConvNet可以同时进行目标分类和跟踪,使用多任务目标进行基于帧的目标检测和帧间轨迹回归;引入correlation feature(关系特征),表示跨时间共存的原创 2021-03-08 17:02:29 · 1134 阅读 · 0 评论 -
Leveraging Long-Range Temporal Relationships Between Proposals for Video Object Detection论文详读
Leveraging Long-Range Temporal Relationships Between Proposals for Video Object Detection(将proposal之间的大范围的时间关系用于视频目标检测)abstract 因为视频中特定目标的动作模糊、稀奇古怪的姿势等原因,导致在不考虑时间因素的情况下无法达到较好的检测效果。 &n原创 2021-03-01 21:52:41 · 535 阅读 · 0 评论 -
Motion Guided Attention for Video Salient Object Detection论文详读
Motion Guided Attention for Video Salient Object Detectionabstract 视频显著目标检测的主要目的是检测出视频中视觉上最突出、最独特的目标,现有的方法没有获取和使用视频中的运动线索,或忽略了光流图像中的空间上下文。 本文的方法使用两个子网络分别实现两个子任务,一个子网络(appe原创 2021-02-25 21:35:21 · 1317 阅读 · 0 评论 -
Semi-Supervised Video Salient Object Detection Using Pseudo-Labels 论文详读
Semi-Supervised Video Salient Object Detection Using Pseudo-Labels ——使用伪标签的半监督式的重要目标(显著目标)检测。abstract虽然近些年基于深度学习的视频目标检测方法与无监督学习的方法相比效果有着长足的进步,但是这些数据驱动的方法依赖大量被详细标记的视频数据来区分每一个目标的类别。本文基于refinement网络和光流信息,提出一个利用稀疏的标记帧生成像素级伪标签的方法。通过利用这些伪标签和部分手动标记的数据,突出目标检测器从原创 2021-02-19 20:25:27 · 809 阅读 · 0 评论 -
图像目标检测和视频目标检测文献综述
基于CNN的图像目标检测方法Two State MethodRCNN(Rich feature hierarchies for accurate object detection and semantic segmentation)RCNN是第一个成功把深度学习应用到目标检测的算法。RCNN主要解决两个问题:一个是使用深度学习网络来定位目标,二是使用少量标记数据来训练大容量模型。RCNN出现之前,目标检测有两种方法——一种是把定位问题转化为回归问题,但该方法表现的不好;另一个方法是使用滑动窗口进行识原创 2021-01-16 20:06:25 · 1920 阅读 · 0 评论 -
R-FCN(R-FCN: Object Detection via Region-based Fully Convolutional Networks)论文详读
introduce现有的检测网络可以根据ROI(region of interest)分为两种子网络——一个是独立于ROI区域的共享的、全卷积的子网络,另一个是不会共享计算的ROI-wise子网络。这样分类的是有历史原因的,因为AlexNet和VGG把整个网络分为两部分,一部分是一个卷积网络后紧跟着一个空间池化层,一部分是几个全连接层。图像分类网络中的空间池化层转换为了检测网络中的ROI池化层。对于图像分类的平移不变性和目标检测中的平移变化性,一方面,图像级的分类偏爱平移不变性,因为对分类而言图像不发生原创 2021-01-07 16:46:36 · 183 阅读 · 0 评论 -
STMN(Video Object Detection with an Aligned Spatial-Temporal Memory)论文详读
introduceSTMN——是一个RNN结构的网络,同时学习如何对目标的长期外观(long-term appearance)运动动力学进行建模和对齐。其核心是STMM——一个卷积循环计算单元,利用在静态图像数据库(如ImageNet)中训练得到的权重。因为是使用静态图像数据库的权重,所以对当前视频数据集缺少标记信息的情况不太敏感。为了说明二维空间的视觉数据的本质,STMM在内存中存储每帧的空间信息,为了实现像素级准确的空间对齐,使用MatchTrans模块来显式地模拟跨帧运动引起的位移(详细过程见下方原创 2021-01-07 11:11:49 · 1178 阅读 · 0 评论 -
Fast Object Detection in Compressed Video论文详读
introduce基于CNN的方法都是使用图像识别网络提取特征,然后通过特征聚合或边框分数来利用时间一致性。尽管这些方法最终提升了检测效果,但是都伴随着大量的计算,这在视频长度越来越长的现在变得不再适用。为了减少计算量,后续的方法类似DFF方法(点击查看对应的文章),只在稀疏的关键帧进行特征提取,将关键帧的特征warp操作后传播到邻近的非关键帧处。这类方法的关键是使用FlowNet进行像素间的位移,但是这类方法花费了额外的时间在FlowNet,因为FlowNet由卷积层组成(卷积计算需要耗费大量时间)。原创 2021-01-05 22:51:12 · 274 阅读 · 4 评论 -
DFF(deep feature flow for video recognition)论文详读
abstractdeep feature flow是一个针对视频目标识别快速且准确的框架,只在稀疏的关键帧上运行卷积子网络,并通过flow field 把它们的特征图传播到其他帧。introduce因为图像内容的变化比视频内容的变化要慢很多,所以冗余且连续的数据可以被用于减少额外的计算。基于CNN的方法有一个通用的结构——多数层都是卷积层。有大量的计算;中间的卷积特征图有着与输入图像同样大小的空间范围(通常是低分辨率的,如16×16或更小)。该方法保留了低级图像内容和中到高级语义信息的空间对应关系,原创 2021-01-04 22:33:12 · 3277 阅读 · 1 评论 -
FMAN(Fully Motion-Aware Network for Video Object Detection)论文详读
abstract目前,视频目标检测的主流方法是通过聚合邻近帧来增强当前帧中的特征,但是目标的特征通常会因为帧之间对象的运动而不能被空间校准。本文提出一个端到端的模型fully motion-aware network(MANet)——同时在像素层面和实例层面对对象进行联合校准,像素层面的校准对详细运动建模方面非常灵活,而实例层面的校准可以捕获更多的全局运动路径以增强对被遮挡物体识别的鲁棒性。introduce因为运动模糊、视频虚焦等原因会产生“恶化帧”。为了处理这种恶化帧,一种方法是聚合时间和空间信原创 2021-01-03 17:27:24 · 600 阅读 · 0 评论 -
TCNN(Object Detection from Video Tubelets with Convolutional Neural Networks)论文详读
Abstract 基于静态图像的目标检测方法和常规目标跟踪方法,提出了一个针对视频目标检测的框架——利用时间卷积网络,将时间信息纳入卷积计算,从而使检测结果规范化,并显示出该方法对视频目标检测任务的有效性。Introduce 因为现有的目标检测算法都是基于图像目标检测而设计的,从而当在视频上进行目标检测时,如何保证检测方法的有效性和鲁棒性成原创 2021-01-01 23:12:08 · 1604 阅读 · 0 评论 -
FGFA(Flow-Guided Feature Aggregation for Video Object Detection)论文详读
摘要现有的视频目标检测方法都是利用box-level的时间信息进行检测,没有进行端到端的训练(从而会消耗大量内存进行存储)。本文提出一个flow-guided特征聚合的方法,是一个端到端的学习框架——根据特征时间信息的一致性进行检测。随着动作路径聚合相邻的特征,从而对每帧的特征进行增强,同时提高了视频检测的准确率,且对快速移动的物体有较好的检测效果。Introduce因为视频中出现的动态模糊、稀奇古怪的姿势、视频虚焦、部分遮挡等原因,导致在图像检测领域效果较好的检测方法在视频目标检测时表现并不理想。原创 2020-12-28 19:52:37 · 2061 阅读 · 4 评论 -
FPN( Feature Pyramid Network for Object Detection)论文详读
Abstract通过图像金字塔建立的特征金字塔是检测网络中重要的组成部分,但近些年使用较少的原因是因为它计算和存储开销较大,本文提出一个通过利用深度卷积网络固有的层次金字塔结构,使用侧向连接结合一个自上而下的外部结构,从而生成一个可以处理所有比例的、具有丰富语义信息的特征图。Introduce一般利用特征主要有上述四种形式:a)基于图像金字塔的特征金字塔,但需要较长的处理时间且需要较多的内存进行存储;b)单一特征图,现在state-of-the-art方法大多数都是采用这个方法,但是该方法对检测小型原创 2020-12-28 19:07:05 · 176 阅读 · 0 评论 -
CBNet( composition backbone network for object detection)论文详读
摘要现有基于CNN的检测器中,骨干网络对特征的提取是非常重要的,且检测器的性能主要依赖骨干网络。本文提出一个更有效的骨干网络,尤其是提出一个新的策略——通过相邻骨干之间的组合连接来组合多个相同的骨干网络,以形成一个名为复合骨干网(CBNet)的更有效的骨干网络。CBNet把前面骨架网络输出的特征进行迭代,作为后续骨架网络输入的一部分,最后一个骨架网络输出的特征图(被称作Lead Backbone)被用于进行目标检测。实验表明CBNet可以与大多数的state-of-the art检测器进行结合,并提升他们原创 2020-12-24 15:10:49 · 1230 阅读 · 0 评论 -
YOLO9000论文详读
摘要 YOLO,提出了一种新颖且借鉴了之前工作的方法; YOLOv2使用一种新颖、多尺寸的训练方式,使得模型可以在尺寸多变的情况下运行,且有效的权衡了速度和准确率; 本文提出的YOLO9000是一个可以实现实时目标检测的方法,可以检测超过9000类的目标。由于同时在COCO和ImageNet数据集上进行训练,使得YOLO9000可以对不含有标签的目标类别进行检测。现阶段存在的问题:现阶段所有的检测算法都在追求更快的速度,更高的准确率,却忽略了可以检测的类别数目。现阶段的目标检测数据原创 2020-12-22 12:46:47 · 354 阅读 · 0 评论 -
YOLO(You Only LOOK Once)论文详读
Abstract 在此之前的方法是把分类器classifier用以进行执行检测任务。 本文把目标检测视作回归问题,来把边界框和相关的类别概率进行空间分离。因为YOLO使用单一网络,从整幅图像中一次性同时完成预测边界框和生成类别概率的任务,从而可以在执行检测时进行端到端的优化。现有的检测算法都是使用分类器进行目标检测的。 &nbs原创 2020-11-14 21:29:44 · 487 阅读 · 0 评论 -
Faster R-CNN论文详读(Faster R-CNN Towards Real-Time Object Detection with Region Proposal Networks)
概述 因为候选区域的计算时间的优化已陷入瓶颈,本文提出了一种新的RPN(region proposal network)通过与检测网络共享全图的卷积特征,甚至可以实现零成本产生候选区域。现有方法的不足之处 Selective Search方法基于工程化的低层次特征,贪婪的合并超像素,每张图像耗时2s左右 Edges Box原创 2020-10-29 18:10:23 · 670 阅读 · 0 评论 -
SPPnet中的Spatial Pyramid Pooling Layer
SPPNet最大的优势是可以接收任意尺寸的输入。根本原因是CNN中的卷积层可以接收任意尺寸的输入,然后生成对应尺寸的输出,但是全连接层必须要接收指定尺寸的输入 如VGG-16中的fc(4096,4096)要求输入的向量必须是4096长度的。在添加了Spatial Pyramid Pool layer后,可以为全连接层提供指定长度的输入,从而解决了CNN要求固定尺寸输入这一问题。Spatial Pyramid Pool layer的作用是产生统一尺寸的输出,并提供给后续的全连接层,具体实现如下:im原创 2020-10-28 19:43:02 · 241 阅读 · 0 评论 -
Fast RCNN中的ROI POOL的python实现
Fast RCNN中的ROI池化层的实现import cv2import numpy as npfrom keras.applications.imagenet_utils import preprocess_inputimport kerasimport matplotlib.pyplot as pltimport matplotlib.patches as patchesfrom Fast_RCNN import test'''roi pool layer的输入是特征图和Selecti原创 2020-10-26 15:22:16 · 503 阅读 · 0 评论 -
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition论文细读
因为在阅读完Fast-RCNN论文后,进行代码复现的过程中发现自己对ROI层的实现不了解,于是回来读了这篇SPPnet的论文,收获很大,对ROI的实现也有了更深的理解。SSPnet提出的原因因为RCNN因为在计算特征时,需要对每一个候选区域分别进行计算,导致速度较慢。针对这一问题,提出了SPPnet,对整张图像进行卷积提取特征,加快了处理速度。因为目前的CNN(因为全连接层的原因)要求规定尺寸的输入,所以提出了SPPnet,将最后一个卷积层后的池化层替换为SPP layer(空间金字塔池化层),生成固原创 2020-10-11 22:35:40 · 335 阅读 · 0 评论 -
Fast R-CNN论文细读
Fast RCNN比RCNN和SPPnet提高了速度和准确率;训练时,同样使用VGG16比RCNN快9倍,比SPPnet快3倍,测试时比RCNN快231倍,比SPPnet快10倍。RCNN速度慢的主要原因是它需要对每一个候选目标执行卷积ConvNet的前向传递,且不进行分享计算。**RCNN是多阶段进行处理的。**RCNN首先需要在候选目标上使用log损失函数来微调卷积网络,然后使用SVM来适应卷积网络,这些SVM会作为目标检测器取代之前通过微调得到的softmax分类器,最后使用边界框回归。**RC原创 2020-10-03 21:07:12 · 193 阅读 · 0 评论 -
Rich feature hierarchies for accurate object detection and semantic segmentation论文细读
因为研究方向是目标检测,所以最近开始读文献了,因为自己知识浅薄,如有不足请见谅,欢迎互相交流。论文算法特点的简单介绍:1.使用了大容量CNN自上而下的提取候选区域以便进行目标检测和分割。2.在标记数据较为匮乏时,使用监督学习在辅助数据集上进行预训练,然后在针对特定区域进行微调,大幅度提高了性能表现。RCNN的步骤1.首先使用Selective Search方法生成2000个region proposals(候选区域);2.使用CNN对每一个区域生成固定长度的特征向量(因为CNN 需要一个固定尺原创 2020-09-26 11:23:16 · 172 阅读 · 0 评论