FCNT

FCNT


  • -Model(pytorch版本

《Visual Tracking with Fully Convolutional Networks》
—基于FCNT的目标跟踪
作者:大连理工大学,香港中文大学
发表会议及时间:ICCV 2015

补充:本文提出了很多新的发现,是考虑其发表的时间,现在都基本都,嘿嘿

一 论文导读

一 研究背景

  • 跟踪算法背景:
    1.静态场:背景是静态的
    2.动态场:背景是动态的

传统跟踪算法:TLD,MOSSE(发表于2017,帧率很高,达到600多fps)
优点:速度快,容易做到实时
缺点:鲁棒性差

深度学习算法:DLT,So-DLT ,FCNT(都已经比较老了)
优点:鲁棒性好
缺点:运算量大

混合式算法:HCF

二 技术要点
本文使用CNN作为特征提取器,分析了CNN不同层的作用(现在已经烂大街了,但是这篇文章是最早一批提出这种发现的文章)

  • 顶层CNN layer:
    编码了更多的关于语音特征的信息并且可以作为种类检测器,易于语义分割
  • 底层CNN layer:
    底层的特征更多是局部特征,可以帮助将目标从背景中分离出来,易于分割

作者这篇文章的第一个贡献就是根据两个特征干扰情况,实时切换两种特征(顶(低)层layer)
分析了从大规模图像分类中学到的CNN特征,找出适合visual tracking的一些属性。也就是不同的computer vision tasks需要不同的特征。

第二个贡献是基于第一个贡献之上的,作者提出了一个新的tracking的方法,同时考虑两个不同卷积层的特征输出,使他们相互补充来处理剧烈的外观变换和区分目标本身

第三贡献,设计了一种方法来自动选择区分两种维度CNN上不同的feature maps,同时忽略另一个feature map以及噪声

二 论文精读

简介:

视觉跟踪领域目前有很多未能解决好的问题:
外观的明显改变、姿态的改变、遮挡等
传统的跟踪算法:仅利用手工设计的方式

深度学习的跟踪算法:
利用CNN可以得到更好的feature表征能力超越以往,但是对数据的要求比较高
1.需基于海量的数据做预训练
2.对数据集的要求过高,很多数据集仅提供第一帧的ground truth
3.只利用了CNN的表征能力,但对其性能了解不多(老黄历了)

三 代码实现

四 问题思索

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值