CV tasks
文章平均质量分 76
CV tasks
zxucver
这个作者很懒,什么都没留下…
展开
-
[Extensive Reading]background modeling:MOG2
MOG2背景建模方法发表于2004年,由Zoran Zivkovic提出,MOG2的改进过程大致是,单高斯背景建模,混合高斯背景建模,MOG到MOG2。原创 2021-12-21 17:53:07 · 1076 阅读 · 0 评论 -
梯度消失与梯度爆炸
简介梯度消失问题和梯度爆炸问题,总的来说可以称为梯度不稳定问题。ReLU激活函数,用Batch Normal,用残差结构解决梯度消失问题正则化来限制梯度爆炸梯度消失梯度消失的原始是反向传播时的链式法则。当模型的层数过多的时候,计算梯度的时候就会出现非常多的乘积项。用下面这个例子来理解:y1=w1x1+b1y_{1} = w_{1}x_{1} + b_{1}y1=w1x1+b1z1=σ(y1)z_{1} = \sigma(y_{1})z1=σ(y1)此时要更新参数b1b原创 2021-09-30 18:07:16 · 834 阅读 · 0 评论 -
Trajectory Forecasting:TrajNet++
概述由于自动驾驶和服务机器人等人工智能新兴应用的需求不断增长,拥挤场景中的轨迹预测已成为近年来的一个重要话题。轨迹预测的一项重要挑战是有效地建模社交互动。在过去的几年中,已经提出了几种新颖的方法。然而,这些方法已经在可用数据的不同子集上进行了评估,因此很难客观地比较结果。TrajNet++,是一个大规模的以交互为中心的基于轨迹的基准测试。不仅包含适当的轨迹采样数据,而且提供统一的广泛评估系统来测试收集的方法以进行公平比较。Referenceaicrowd trajnet challengeAwe原创 2021-09-28 20:40:25 · 1421 阅读 · 0 评论 -
transformer
transformer最早于2017年google机器翻译团队提出,也就是著名的《Attention Is All You Need》,transformer完全取代了以往的RNN和CNN结构,改为由transformer堆叠的方式构建模型。transformer在NLP领域首先取得了非常惊人的效果,随后DETR首次将transformer引入到了CV的目标检测任务重,随后VIT完全抛弃了CNN,改为完全由transformer实现基础的图像分类任务,之后transformer在CV领域的应用也变得一发原创 2021-09-28 15:43:10 · 3470 阅读 · 0 评论 -
深度学习中的激活函数总结
激活函数饱和问题一个激活函数h(n)h(n)h(n),当n趋近于正无穷,激活函数的导数趋近于0,称之为右饱和;当n趋近于负无穷,激活函数的导数趋近于0,称之为左饱和。当一个函数既满足左饱和又满足右饱和的时候我们称之为饱和。不满足上述两个条件的,称为不饱和激活函数。常见的激活函数,依照饱和或不饱和划分如下:饱和激活函数:sigmoidtanh不饱和激活函数:ReLULeaky ReLUPReLUSwishMish常用激活函数sigmoidg(z)=11+e−zg(z)原创 2021-09-24 15:13:08 · 363 阅读 · 0 评论 -
[Extensive Reading]目标检测(object detection)系列(十六)YOLOv4:平衡速度与精度
简介YOLOv4是YOLO之父Joseph Redmon宣布退出计算机视觉的研究之后推出的YOLO系列算法,其作者Alexey Bochkovskiy也参与了YOLO之前系列算法,《YOLOV4: Optimal Speed and Accuracy of Object Detection》,其主要贡献在于对近些年CNN领域中最优秀的优化策略,从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化,组合出一个精度与速度兼备的结构。...原创 2021-09-24 01:48:39 · 572 阅读 · 0 评论 -
SOT:dataset
https://github.com/jiajunhua/foolwood-benchmark_results/blob/master/img/recent_Tracker_development.pngDAVISDAVIS 2016DAVIS 2017ILSVRC VIDILSVRC 2015YouTube-BoundingBoxes原创 2021-09-14 17:16:34 · 305 阅读 · 0 评论 -
MOT:MOTchallenge任务评价方法
1,1,912,484,97,109,0,7,12,1,912,484,97,109,0,7,13,1,912,484,97,109,0,7,14,1,912,484,97,109,0,7,15,1,912,484,97,109,0,7,16,1,912,484,97,109,0,7,17,1,912,484,97,109,0,7,1index012345678value1191248497109071含义frame idtra原创 2021-07-28 21:03:46 · 728 阅读 · 0 评论 -
MOT:A Higher Order Metric for Evaluating Multi-object Tracking
简介:HOTA: A Higher Order Metric for Evaluating Multi-object Tracking是IJCV 2020的paper,在此之前以MOTChallenge为主的多目标跟踪benchmark一直采用以MOTA为排名的评价标准,但是MOTA有些情况下不足以衡量出多目标跟踪的性能,甚至都不如IDF1,所以这篇文章重新考量了多目标跟踪任务,并提出一种Higher Order Tracking Accuracy 的Metric。原创 2021-07-20 21:27:18 · 3042 阅读 · 0 评论 -
Objects Track Benchmarks
MOTMOT challengeTAOCaltech Roadside PedestriansBDD100KKITTInuScenesWaymoAOTPANDAArgoVerseSOTMOTSMOT challenge MOTSKITTI MOTSPoseTrackPoseTrackMTMCAICity challengeDuke-MTMCLIMA原创 2021-07-20 11:47:36 · 207 阅读 · 0 评论 -
ReID:常用损失函数总结
在ReID中常见的loss有Identity Loss、Verification Loss、Triplet loss。Deep Learning for Person Re-identification: A Survey and OutlookIdentity Loss将 Re-ID 的训练过程当成图像分类问题,同一个行人的不同图片当成一个类别,常见的有 Softmax 后加交叉熵损失函数Verification Loss将 Re-ID 的训练当成图像匹配问题,是否属于同一个行人来进行二分类原创 2021-07-15 22:02:37 · 2634 阅读 · 0 评论 -
[Extensive Reading]background modeling:ViBe
简介2009 年,Marc Van Droogenbroeck 等人提出了一种新的背景建模法: ViBe(Visual Background Extractor)算法。Vibe 是一种通用的运动目标检测算法,对于视频流类型、颜色空间、场景内容没有特定要求。ViBe: A universal background subtraction algorithmfor video sequences原理描述背景既然是背景建模,就必须解决一个问题,那就是怎么描述背景,ViBe将连续视频序列的背景定义为图像原创 2021-07-14 02:41:18 · 188 阅读 · 0 评论 -
MOT:多目标跟踪总结与思考
Task多目标跟踪(MOT)是一种常见的计算机视觉任务,任务要求检测到连续视频帧中的目标,并为每一个目标分配一个track id,这个id在视频序列中具有唯一性。多目标跟踪任务在带有时序性质的任务中扮演着重要的角色,因为它为检测的结果建立了时序上的关联,比如动作识别任务,比如车辆的movement判断等等,都需要以多目标跟踪为基础。所以多目标跟踪的任务性质决定:MOT需要和目标检测强关联,同时检测器的性能很大程度上影响了MOT的性能MOT是检测的下游任务,需要以检测器作为基础虽然现在MOT原创 2021-07-01 02:21:05 · 1367 阅读 · 3 评论 -
[Extensive Reading]SOT:SiameseRPN
简介SiameseFC成功使用孪生网络成功解决SOT问题,虽然它不是真正意义上的第一个使用Siamese结果的SOT算法,但是SiameseFC之于SOT,就像SORT之于MOT,RCNN之于目标检测,甚至AlexNet之于CNN一样。但是SiameseFC有一个致命的问题,无法适应尺度变化。就像最早的目标检测一样,当不是用SS做区域建议时,怎么解决目标尺度变化的问题:Faster R-CNN的RPN;SiameseRPN就是在SiameseFC的基础上引入PPN,处理SOT中的目标尺度变化;Sia原创 2021-07-01 01:40:40 · 164 阅读 · 0 评论 -
[Extensive Reading]SOT:SiameseFC
简介SiamFC:Fully-Convolutional Siamese NetworksSiamFC首次有效的将CNN应用到SOT任务,可以说SiamFC之于SOT,不亚于RCNN之于object detection;SiamFC之前的SOT任务一般使用简单模型在线训练,SiamFC的训练是离线的,所以效果和效率能很好的平衡;SiamFC是全卷积的结构,所以理论上可以接收任何尺寸的输入图像;SiamFC在VOT-15上当时达到SOTA,但是训练是在ILSVRC object detection原创 2021-06-30 02:32:06 · 248 阅读 · 0 评论 -
[Extensive Reading]MOT:CenterTrack
简介CenterTrack是CenterNet目标检测网络的作者xingyizhou在多目标跟踪领域的工作,《Tracking Objects as Points》,作为一个多目标跟踪算法,个人认为CenterTrack比较新颖的地方在于不完全依赖前后帧的IOU关系,而是把匹配的过程尽量多的交给CNN结果,减少了常规多目标跟踪方法中负责的匹配过程,而这个匹配甚至可以和IOU解耦,CenterTrack在单图训练的情况下,也有一定的跟踪能力。原理推理:输入:相比于一个检测模型,CenterTrack的原创 2021-06-30 00:58:08 · 455 阅读 · 0 评论 -
[Extensive Reading]目标检测(object detection)系列(十五) Mask R-CNN:检测与分割结合
简介Mask R-CNN 是在2017年提出,是FAIR团队的Kaiming大神和RBG大神的强强联手之作。paper的名字非常简洁,就叫Mask R-CNN,R-CNN系列确实可以独树一帜。Mask R-CNN无论是在方法创新上还是工程实现上,都非常具有影响力,首先是ICCV2017的best paper,其次FAIR团队的maskrcnn-benchmark项目也被很多人使用和改进,并作为其它工作的codebase model,现在,一方面由于maskrcnn-benchmark不再更新,以及det原创 2021-06-09 01:25:41 · 871 阅读 · 0 评论 -
[Extensive Reading]MOT:SiamMOT
简介SiamMOT是一个online的多目标跟踪(MOT)算法,《SiamMOT: Siamese Multi-Object Tracking》作者来自亚马逊,SiamMOT是ACM2020 Hieve竞赛行人多目标跟踪赛道的第一名,同时是ICCV2021 airmot竞赛的baseline。顾名思义,SiamMOT将SOT中siamese的思想引入MOT中,文中把这个过程叫做instance-level motion model。原理这种图可以比较清晰的呈现出SiamMOT的原理,首先ItI^t原创 2021-06-01 23:29:38 · 567 阅读 · 0 评论 -
MPII姿态估计性能评价标准-PCK
PCK是mpii使用的人体关键点估计评价标准,在coco之前,PCK一直是比较主流的metric,包括deepfashion,fashionAI等,都是使用的此标准。原创 2021-05-11 21:17:06 · 5633 阅读 · 0 评论 -
ReID:无监督及领域自适应的目标重识别概述
无监督(unsupervised)及领域自适应(domain adaptive)的目标重识别是目标重识别领域中两个重要的研究方向,同时二者又关系密切。本文中大部分配图和内容参考葛艺潇:无监督及领域自适应的目标重识别。原创 2021-05-10 21:49:04 · 3478 阅读 · 0 评论 -
coco姿态估计性能评价标准-AP
coco2017是当前最主流的多人姿态估计benchmark,官网的Evaluate已对coco的评价标准做了详细的解释,本文只对其二次整理。原创 2021-04-21 21:43:19 · 3769 阅读 · 0 评论 -
ReID:通用性能评价标准
简介Market-1501是行人重识别领域最为常用的benchmark,数据集在清华大学校园中采集,夏天拍摄,在 2015 年构建并公开。它包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的 1501 个行人、32668 个检测到的行人矩形框。每个行人至少由2个摄像头捕获到,并且在一个摄像头中可能具有多张图像。训练集有 751 人,包含 12,936 张图像,平均每个人有 17.2 张训练数据;测试集有 750 人,包含 19,732 张图像,平均每个人有 26.3 张测试数据。3368 张查原创 2021-03-14 16:54:48 · 1152 阅读 · 0 评论 -
[Intensive Reading]目标检测(object detection)系列(十四) FCOS:用图像分割处理目标检测
FCOS的paper是《FCOS: Fully Convolutional One-Stage Object Detection》,来自阿德莱德大学沈春华老师团队,作者是田植,其近期的工作时在实例分割方向非常惊艳的BoxInst。FCOS旨在利用全卷积的思路处理目标检测问题,它是一个anchor free的单阶段检测器,一个很有意思的地方是,FCOS和CenterNet都是在CornerNet之后,但是这它们几乎是同时挂到arxiv上,都在2019年的4月,且相差不到半个月。原创 2021-01-31 22:20:58 · 1679 阅读 · 1 评论 -
如何理解转置卷积(transposed convolution)
转置卷积也被称为反卷积,常被用用于CNN中的上采样操作,比如分割任务,或GAN网络中。反卷积并不是常规卷积的完全逆操作,反卷积也起不到根据输出特征以及对应的卷积核,恢复原始输出的作用,它最多的作用就是有可学习参数的上采样操作,仅此而已。同时,反卷积操作并没有把正向卷积输出,对应的卷积核拿过来做转置使用,而是多了几个卷积核而已。此外,即便是把正向卷积输出对应的卷积核拿过做反卷积,它也恢复不出来原来的参数,恢复原来参数这种操作看起来并没有太大意义,因为只是想做上采样而已。原创 2021-01-31 16:28:06 · 2919 阅读 · 0 评论 -
BN(Batch Normalization)层原理与作用
BN层最重要的作用是让加速网络的收敛速度,同时让网络训练变得更容易;另外调参过程也简单多了,对于初始化要求没那么高,而且可以使用大的学习率等,而没有使用BN的话,更大的学习率就可能导致训练发散,大学习率又反过来作用到训练速度上,加速了收敛速度,两者相辅相成。此外,也有一种说法是BN层可以提高网络的泛化能力,抑制过拟合,不过这个说法一直存在争议。原创 2021-01-20 01:54:41 · 40652 阅读 · 0 评论 -
[Intensive Reading]目标检测(object detection)系列(十三)CenterNet:no Anchor,no NMS
CenterNet的论文是《Objects as Points》,其实从名字就可以很直观的看出,CenterNet是将目标检测问题看做对于目标中心点的检测,它是继CornerNet之后的又一个Anchor-free方法。原创 2020-07-05 22:40:09 · 3020 阅读 · 0 评论 -
[Intensive Reading]MOT:FairMOT
简介《FairMOT:A Simple Baseline for Multi-Object Tracking》是一个online的多目标跟踪(MOT)算法,基于TBD(Traking-by-Detection)的策略,FairMOT主要就是基于JDE做的改进,可以简单的理解为,FairMOT是将JDE的YOLOv3的主干,改成了CenterNet,也就是将检测的方法由Anchor-base换成了Anchor-free,然后同样在已有检测模型上加了了embeeding分支,模型输出检测的结果和embeedi原创 2020-06-26 19:29:52 · 2180 阅读 · 0 评论 -
MOT:Metrics MOTA
简介:MOTChallenge是多目标跟踪领域最为常用的benchmark,其中2D MOT15,3D MOT15,MOT16,MOT17,MOT20都是多目标跟踪领域常用的数据集。下面我们按照MOTChallenge中的评价标准进行介绍,当然MOTChallenge也主要参考《Evaluating Multiple Object Tracking Performance: The CLEAR MOT Metrics》评价指标:总结CLEAR MOT Metrics认为一个好的多目标跟踪器应该有如原创 2020-05-22 21:54:41 · 5190 阅读 · 0 评论 -
[Intensive Reading]MOT:Towards Real-Time Multi-Object Tracking
简介《Towards Real-Time Multi-Object Tracking》是一个online的多目标跟踪(MOT)算法,基于TBD(Traking-by-Detection)的策略,在之前的MOT算法中惯用的策略就是先检测,得到视频中目标bbox,然后再考虑前后帧的匹配策略,为了更好的匹配效果,一般匹配中都会加入Re-ID,文章中把Re-ID等同于embedding,即一般方法中,d...原创 2020-04-06 21:48:55 · 3021 阅读 · 0 评论 -
关于梯度下降优化算法的概述
梯度下降算法是最流行的优化算法之一,并且是迄今为止最常见的优化神经网络的方法。同时,每个最先进的深度学习库包含各种梯度下降优化算法的实现,(例如: lasagne,caffe和keras)。然而,这些算法通常用作黑盒优化器,因为它们的优点和缺点的实际解释很难实现。本文旨在为您提供不同的梯度下降优化算法最直观的作用,这将有助于您更好的使用它们。我们首先要看梯度下降的不同变体。 然后,我们将简要总结训练过程中的挑战和困难。原创 2019-09-29 22:08:38 · 897 阅读 · 0 评论 -
交叉熵损失(Cross Entropy)求导
Cross Entropy是分类问题中非常常见的一种损失函数,我们在之前的文章提到过二值交叉熵的证明和交叉熵的作用,下面解释一下交叉熵损失的求导。原创 2019-10-03 00:29:52 · 9888 阅读 · 2 评论 -
[Intensive Reading]目标检测(object detection)扩展系列(三) Faster R-CNN,YOLO,SSD,YOLOv2,YOLOv3在损失函数上的区别
Faster R-CNN,YOLO和SSD通用目标检测领域有着奠基一般的作用, 而YOLOv2和YOLOv3由于其灵活易用的特性,在工业界一直很受欢迎,下面这篇文章主要想从损失函数的角度集中讨论下这几个主流框架的区别。原创 2019-10-04 22:38:46 · 2575 阅读 · 4 评论 -
[Intensive Reading]MOT:SORT
简介SORT是一个快速的在线的多目标跟踪(MOT)算法,基于TBD(Traking-by-Detection)的策略,这些特性决定了SORT实用性非常好,SORT的论文是《SIMPLE ONLINE AND REALTIME TRACKING》,发表于2016年,SORT在当时对MOT领域起到了benchmark般的作用。SORT原理主要贡献SORT的主要贡献有两个:证明了一个性能优异...原创 2019-10-06 23:08:24 · 1676 阅读 · 0 评论 -
[Intensive Reading]目标检测(object detection)系列(六) SSD:兼顾效率和准确性
SDD出现之前,主流的CNN目标检测模型分别是Faster R-CNN和YOLO,Faster R-CNN作为two-stage的代表,具有state of the art的准确性,但是速度偏慢,做不到实时。。YOLO使得目标检测任务one-stage就能完成,在效率上有了明显改善,但是准确性上确差了很多。这就好比“人有悲欢离合,月有阴晴圆缺,此事古难全。”但是就在这个时候,SDD出现了,一个兼顾了效率和准确性的网络结构。因为它做到了比Faster R-CNN更准,同时又比YOLO更快的性能表现。原创 2019-08-11 22:06:08 · 2942 阅读 · 1 评论 -
面部特征点定位概述及最近研究进展
面部特征点定位概述面部特征点定位任务即根据输入的人脸图像,自动定位出面部关键特征点,如眼睛、鼻尖、嘴角点、眉毛以及人脸各部件轮廓点等,如下图所示。 这项技术的应用很广泛,比如自动人脸识别,表情识别以及人脸动画自动合成等。由于不同的姿态、表情、光照以及遮挡等因素的影响,准确地定位出各个关键特征点看似很困难。我们简单地分析一下这个问题,不难发现这个任务其实可以拆分出三个子问题: 1.转载 2017-12-09 01:39:03 · 3329 阅读 · 0 评论 -
[Intensive Reading]图像生成:SaGAN
简介SaGAN,即生成对抗模型,是图像生成领域内的一种重要方法,它在2014年由Goodfellow提出,它的论文是《Generative Adversarial Networks》,GAN是在训练两个相互对抗的网络,一个生成器(Generator)和一个判别器(Descriminator)。当训练达到平衡时,对于一个输入噪声zzz。G(z)G(z)G(z)就是最后生成出来的图像。GAN原理...原创 2019-09-19 19:16:20 · 1870 阅读 · 0 评论 -
[Intensive Reading]图像生成:GAN
GAN,即生成对抗模型,是图像生成领域内的一种重要方法,它在2014年由Goodfellow提出,它的论文是《Generative Adversarial Networks》,GAN是在训练两个相互对抗的网络,一个生成器(Generator)和一个判别器(Descriminator)。当训练达到平衡时,对于一个输入噪声z。G(z)就是最后生成出来的图像。原创 2019-09-16 00:07:41 · 13016 阅读 · 1 评论 -
[Intensive Reading]目标检测(object detection)系列(七) R-FCN:位置敏感的Faster R-CNN
R-FCN是承接Faster R-CNN的工作,论文是《R-FCN: Object Detection via Region-based Fully Convolutional Networks》,可以简单的理解为R-FCN是Faster R-CNN+位置敏感(position sensitive)卷积层。提出的初衷是为了解决R-CNN系列,在新的图像分类backbone下效果不好的问题。R-FCN之所以起这个名字,是因为图像分割任务中出现了一个FCN(全卷积网络),而这种全卷积的说法和R-FCN想要表达的原创 2017-11-19 19:21:32 · 4664 阅读 · 5 评论 -
[Intensive Reading]目标检测(object detection)系列(四) Faster R-CNN:有RPN的Fast R-CNN
RBG团队在2015年,与Fast R-CNN同年推出了Faster R-CNN,我们先从头回顾下Object Detection任务中各个网络的发展,首先R-CNN用分类+bounding box解决了目标检测问题,SPP-Net解决了卷积共享计算问题,Fast R-CNN解决了end-to-end训练的问题,那么最后还能下一个ss算法,依旧独立于网络,是一个单独的部分,这个点是R-CNN系列的性能瓶颈,所有Fast R-CNN是没有什么实时性的。那么Faster R-CNN的出现就是为了解决这个瓶颈问题原创 2017-11-13 14:47:15 · 5270 阅读 · 7 评论 -
[Intensive Reading]目标检测(object detection)系列(三) Fast R-CNN:end-to-end的愉快训练
在之前的两个文章中,我们分别介绍了R-CNN与SPP-Net,Fast R-CNN是结合结合了SPP-Net的共享卷积计算思想,对R-CNN做出改进。Fast R-CNN的论文是《Fast R-CNN》,这是多么一个简单粗暴的论文题目。╮( ̄▽  ̄)╭在上一篇中,SPP-Net解决了卷积共享计算的问题,但是SPP-Net依然不是一个可以end-to-end训练的网络,所以Fast R-CNN的提出就是为了解决这个问题。原创 2017-11-08 12:11:54 · 4255 阅读 · 10 评论