Cascaded Boundary Regression for Temporal Action Detection(tad)论文阅读笔记

论文链接:http://pdfs.semanticscholar.org/34a4/68c0f6e299db7ca1228726f161856a3082ec.pdf

它的姊妹篇:Temporal Unit Regression Network for Temporal Action Proposals

姊妹篇解说博客:http://blog.csdn.net/Frank_zrh/article/details/78174148

姊妹篇做的是视频动作检测(或者说分割,没有细化去判断是什么动作)。nets的返回:片段是动作的置信分数score,及预测出的动作片段的strat and end 时间值与对应ground truth的 start and end 间的偏差offset。

姊妹篇手稿笔记:




本阅读论文的实现任务是:时序动作检测(分割出时序片段+片段的动作识别),核心亮点在于:两个子任务都使用了级联结构,细化output 结果。

1. 首先是视频特征的提取

文章列举了三种视频特征提取的方法:c3d、two-stream cnn、motion feature。并在论文中也比较了c3d 和 two-stream cnn的优劣。提取视频特征后,得到 Unit-level features,然后进行后续的proposal 和 class detection两个stage。结构图如下:


这里文章对于unit-level feature 或者是frame-level的使用还做了比较:


可以看到,作者还同时比较了c3d和two-stream cnn提取视频特征的效果进行了比较。并对unit-level feature效果更好做出了假设解释:


2. 级联结构:


可以看到,proposal 的corrdinate regression 和action classification均使用了级联结构去使得结果更细化。这里注意下kc=1和kc=2时候的两个箭头的方向哈~⬆️⬆️  和 ⬆️⬇️  。

2.1:proposal:


其中Kpc是proposal这一stage的级联系数,它的output是:two boundary regression offsets and scores。



2.2:class detection:


其中Kdc是class detection这一stage的级联系数。它的output:n个类别的时序边界start and end时间坐标 和 对应的类别置信分数,选最大的那个分作为这个视频片段的所属类别,并把这个分数所对应的时间坐标也拿过来,作为这个动作片段的strat and end “时间坐标”。

3. loss function:



这里涉及怎么计算tiou的问题,文章没怎么细说,可以参考ssd中的相关说明,给个链接:

http://blog.csdn.net/u013989576/article/details/73439202


我的理解是:tiou类似于ssd中的jaccard overlap概念哈~不知道是不是理解对了,欢迎大家指正啊~

loss函数还是说的蛮仔细的,就是proposal和class detection两部分累加。


嗯,总的来说,文章思路比较简单顺畅,主要是要学习它的使用级联结构思路,一般级联系数就1、2、3、4这样的吧,并没有给到很大。文章做了很多对比实验,一步步把各个步骤的“操作量”做到最优化。比如:视频feature的提取方法(c3d和tscnn比较)、uint-level和frame-level clip的选择之类的。多实验多比较,才能达到最好的效果!这一点真的值得学习!动脑+动手出真知。

嗯,有了新理解会再来补充,欢迎大家指正。











  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值