断断续续看了一整天,大概看懂了其中的原理,作者设计了一个基于R-FCN的结构,类似于siamese网络,采用具有时间差的两帧作为输入,分别进行位置回归,分类和帧间位移的训练,这点从损失函数上也可看出。这个结构是端到端的,对于耗时那块儿没看太明白,到底是141s还是14s,依我之见应该是141秒,应为特征提取还是较为耗时的。总的来说效果还是不错的,作者对于两帧之间时间间距小产生的精度提高不显著的看法是冗余信息多,是否可以理解为位移变化不大,所以难以预测,我在想,这样的话,速度急剧变化,会不会也会导致模型性能变差。还有一点就是这个模型需要用到数据增强,貌似对训练样本要求还是蛮高的,模型充分训练才可以。
由于本人对于目标跟踪也是没什么研究,这篇文章看起来还是蛮费劲的。里面提到很多深度学习用于目标跟踪的框架但是我都没有看过,如果对这篇文章理解有误或者有什么更好的理解欢迎留言。个人感觉用深度学习做跟踪还是蛮耗时的,以后肯定有更快的框架的,期待。
弥留任务:有空把R-FCN的论文再详细看一遍。
传送门:论文中文翻译 https://blog.csdn.net/u012060535/article/details/82782395