Multi-Object Tracking and Segemtation(MOTS)论文解读

######12月博客第一篇~2019要结束喽######

多目标分割与跟踪(MOTS)的文章——Voigtlaender P , Krause M , Osep A , et al. MOTS: Multi-Object Tracking and Segmentation[J]. 2019. 从9月份开始断断续续看到现在,中间有学到不少东西,最近算是年末总结一下吧。

文章的内容包括了数据集的构建、任务评估指标的重新定义、baseline网络的简单介绍以及对网络结构研究的实验、网络性能评估以及分析等等,不过,童鞋们最关心的网络实现部分描述的确实非常少,本篇以及后续博客都会主要围绕它所提出的MOTS网络TrackR-CNN进行介绍。

文中提到,TrackR-CNN是基于Mask R-CNN所构建的针对MOTS任务的网络,其实仔细研究就可以发现,这个网络只是基于完整的Mask R-CNN网络,通过多帧并行输入,然后加入了3D卷积层用于增强多帧间的时域信息关联,随后的部分也是保留了Mask R-CNN的bbox回归、分类以及Mask的生成,此外还加入了一个全连接层提取用于数据关联的128维embedding。

这是博主组会PPT上画的大概框架,可以发现结构并不复杂,而且各部分耦合程度不高,各个模块的功能也是十分清晰。

除了网络结构之外,这篇文章中还有一些实验细节值得注意:

它的训练和测试都是在Titan X上进行的,也就是说网络是比较大的,应该需要10G以上的显存才能跑起来,而且博主实测用一块4G显存的960跑Mask R-CNN是没有问题的,而这个网络完全不行,没完没了的OOM。其实想来也很合理,按照代码默认的设定,网络的输入是5张连续帧,网络的参数虽然是共享的,但feature map的数量相比于1张输入增多了5倍,整体需要的显存当然会多很多。

关于网络的代码实现会在日后的博文中详细介绍,谢谢各位道友的支持。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值