Detect-and-Track论文:笔记

【题目】:《检测-追踪:视频中有效的姿势估计》

【批注】:

这篇CVPR-2018文章算是进复旦/博立的文章阅读首秀吧,一开始以为毕设是要做姿势估计,但是最后做的是MTMC。论文里使用的方法是扩展后的Mask R-CNN,也正是因为这篇文章,才去学习的Detector家族。在未来的研究生涯中具有开天辟地的意义。啊对了,本科毕设还要翻译英文文献,自己翻译的就是这篇,我的妈啊当时翻译了两个星期。(文章涉及到的东西还是很多的)

 

【针对问题】:

针对视频中的复杂多人体关键点追踪问题。(PoseTrack数据集)
           现存的视频姿势分析都是基于手工图模型和帧级别优化的实时方法,都需要对约束条件进行手工设定,不能连接多帧信息。

 

【主要创新】:

整体方法是基于Two-Stage,首先用3D人体姿势预测器检测关键点,然后再用轻量级的优化器去连接这些点。

★ 跨帧的时空姿势估计:
      # 1.主干网络用3D ResNet,初始化方法用均值和中心。
      # 2.将RPN扩展为TPN,对anchor进行cls/reg分析。
      # 3.对RoIAlign进行扩展,提取时空特征。后cls头和point头分别产生类别信息和热图。

★ 链接关键点成为轨迹:
      # 将其视为双向匹配问题,每个人都是一个节点,用Hungarian和Greedy算法完成。距离Metric方式有很多:DL特征、BBox IoU、姿势PCKh、LSTM。

 

 

【实验方法】

这个实验策略666,先在PoseTrack Benchmark上进行Baseline实验,这个实验结果排名第一,然后再在Baseline上放自己的设计。真的是把别人的方法按在地上摩擦~

★ Baseline实验
      # 1.对检测结果的阈值进行改变,观测关键点mAP和MOTA;
      # 2.将Mask R-CNN的backbone网络变深,最终采用ResNet-101+FPN;
      # 3.双向匹配问题对Hungarian和Greedy算法进行对比,采用IoU度量;
      # 4.对追踪损失准则选定进行了实验:DL特征、BBox IoU、姿势PCKh、LSTM,最终为了简便和鲁棒性,选择IoU。
      # 5.上限实验:给定所有的“正确联合”或“正确关键点”,分别看对结果的影响,再对比联合的结果。发现好的姿势估计影响很大。
      # 6.当前最优对比:数据集最近发布,先跟现存的方法对比;
      # 7.运行时间对比:根基于IP的方法对比,速度提升了200多倍;

★ 3D Mask R-CNN实验
      前面balabala讲一堆全都是Baseline,现在才切入正题。考虑到计算量,backbone换成了ResNet-18,与2D的Baseline结果进行了对比,最后显示center中心初始化方案较好。

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值