qq_41298141-CSDN博客

原创 Video Object Detection with an Aligned Spatial-Temporal Memory

主要贡献：提出了一个新的时空记忆网络（STMN）用于视频目标检测。将预先训练好的图像分类权重集成到memory和网络内对齐模块中，该模块在时间上对memory进行空间对齐Towards high performance for video object detection和fgfa只能在固定数量的小帧上进行聚合信息，本文的方法可以在长的可变的帧上面进行信息聚合。只需要计算一个帧级的空间memor...

2019-07-18 16:04:36 973

原创 towards high performance video object detection for mobiles

Abstract：之前的视频目标检测算法结构复杂仍然不适合在手机上运行。本文提出了一个轻量级网络结构用于在手机上进行视频目标检测。ligh flow 一个很小的网络，用于在帧之间构建联系。a flow-guided GRU模块用来在关键帧上提取特征。非关键帧的特征用关键帧的特征进行传播。整个网络是端到端训练的，获得了60.2%mAP，25.6fps（HuaWei Mate 8）模型结构 fo...

2019-07-16 20:33:35 434

原创 YOLOv2

YOLO的缺点：1.定位不准确 2.召回率低 YOLOv2对此进行了修改1.Batch Normalization对网络的每一层的输入都做归一化，收敛会快一点，原来的YOLO算法没有BN层，YOLOv2在每个卷积层都添加了BN层，并且将dropout去掉，可以提升2%的mAP2.High Resolution Classifier一般都是用预训练的网络来finetuning自己的网络，而且...

2019-07-12 10:29:47 712

原创 YOLO

理念：将输入的图片分割成SS网格，然后每个单元格负责检测中心点落在该单元格的目标。，每个单元格预测B个边界框以及边界框的置信度。置信度=Pr（object）是否有目标IOU。如果有目标Pr(Object)=1,否则为0，边界框的位置用(x,y,w,h)来表示，中心坐标的预测值（x,y）是相对于每个单元格左上角坐标的偏移，w,h是相对于整个图片的宽与高的比例，因此四个值应该都在（0，1）之间分类...

2019-07-10 16:14:27 322

原创 towards high performance video detection

Xizhou Zhu∗， Jifeng Dai，Lu Yuan，Yichen Wei，et.al Towards High Performance Video Object Detection// IEEE Conference on Computer Vision & Pattern Recognition. 2018该论文在DFF和FGFA的基础上进行了三点改进，DFF专注于速度...

2019-06-25 19:28:51 190

原创 Objects as Points 解读

Objects asPoints 2019 Xingyi Zhou, Dequan Wang, Philipp Krahenb ¨uhl我们在对象的边界框中心用一个点表示对象(参见图2)，然后直接从中心位置的图像特征返回其他属性，如对象大小、尺寸、3D范围、方向和姿态。目标检测是一个标准的关键点估计问题。将图像输入到一个完全卷积网络中生成一个热图，热图的峰值对应对象的中心。每个峰值的图像特征预...

2019-06-14 19:06:22 3407

原创 16. Optimizing Video Object Detection via a Scale-Time Lattice解读

Optimizing Video Object Detection via a Scale-Time Lattice Kai Chen1 Jiaqi Wang1 Shuo Yang1 CVPR2018视频类目标检测相关工作：在VID挑战引入ImageNet之前，很少研究视频目标检测。后来Han等人提出Seq-NMS建立高置信度边界框序列并且将框重新评分为平均或者最大置信度。这个方阿飞你属于后期...

2019-06-14 18:54:44 754

原创 Towards High Performance Video Object Detection解读

Towards High Performance Video Object Detection Xizhou Zhu∗ Jifeng Dai Lu Yuan Yichen Wei CVPR2018在DFF和FGFA基础上进行了三点改进，在速度和精度上进行了权衡。DFF专注于提高速度，FGFA专注于精度，本文将两者优势结合起来。（1）特征的稀疏递归聚合FGFA是在每一帧上进行特征聚合，而在...

2019-06-14 18:50:49 1089

原创 R-FCN

伪代码feature maps=process（image）ROIs=region_proposal(feature maps)score_maps=compute_score_map(feature_maps)for ROI in ROIsV=region_roi_pool(score_maps,ROI)class_scores,box=average(V)class_probai...

2019-06-14 18:39:06 183

原创 bounding box regression

P是原始的proposal，G是ground truth G帽是P经过映射后得到的与G相近的框输入是CNN的特征，也就是R-CNN中pool5 feature输出而由ground truth和proposal计算得到的真正需要的平移量和尺度变化应该为：所以目标函数为：w是要学习的参数，d（p）是得到的预测值，希望预测值和t*差距最小，损失函数为：函数优化目标为：...

2019-06-14 18:30:37 92

原创 Fast R-CNN

Fast R-CNN是对R-CNN的一个改进。R-CNN产生非常多的region proposal，每一个建议框都送入到CNN中，计算量非常大。Fast R-CNN提出直接用特征图代替原图来检测目标。直接使用特征图计算ROI。采用VGG16中的卷积层Con5生成ROI。再使用Roi池化将ROI转化为固定的大小，送入到全连接层进行分类和定位。R-CNN最后使用的是SVM进行分类，Fast R-C...

2019-06-14 16:51:16 102

原创 Faster R-CNN

在Fast R-CNN基础上进行了再一次改进取代之前的候选区域算法，用RPN生成ROI后面的结构和Fast R-CNN一样。RPNRPN的输入：Faster R-CNN的公共特征图在特征图上用一个33的滑动窗口，相当于做了一个33的卷积操作。使用ZF网络构造与类别无关的候选区域。ZF网络自u后输出256个值，它们被送入到两个独立的全连接层以预测边界框和两个objectnetss分数。...

2019-06-14 16:50:49 178

原创 RCNN

这里写自定义目录标题目录R-CNN目录R-CNN自从Alexnet获得2012年 ILSVRC 2012冠军后，用CNN进行分类成为主流。原始的用于目标检测的暴力方法是从左到右，从上到下滑动窗口，利用分类识别目标。为了在不同观察距离处检测不同的目标类型，需要使用不同大小和宽高比的窗口。R-CNN提出了选择性搜索，用候选区域方法创建目标检测的ROI。首先将每个像素作为一组，然后计算每组的纹...

2019-06-14 16:50:38 184

qq_41298141的博客