论文浏览(44) Towards Efficient Coarse-to-Fine Networks for Action and Gesture Recognition


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:加拿大华为诺亚实验室
    • 发表时间:ECCV 2020

1. 要解决什么问题

  • 现在的行为识别模型很多,也尽可能做小。但是,当前最优代表性的小模型TSM也需要较多算力。
    • 用了一个我没看懂的方法算了一下,在手机上运行TSM的小模型大概能够连续运行15分钟。

2. 用了什么方法

  • 其实就是将 Coarse-to-Fine(C2F) 的思想引入行为识别中。
    • 人本身的视觉系统就是 Coarse-to-Fine,中文翻译就是“由粗到细”。
    • 我的理解就是,我们看一个物体的时候,会在时间、空间多个维度上进行调整。
    • 比如,“抬起头看电视”这个动作,抬起头眼睛先会找电视在哪个位置,然后再看电视屏幕中的内容。
  • C2F的好处在于,处理数据时不用每次都使用高分辨率的数据。
    • 比如,“检查电视是否关了”这个动作,我们用余光就能知道,不用仔细盯着电视屏幕看。
    • 也就是说,对于不同的行为,不需要使用相同分辨率的输入数据就能完成任务。
    • 其实,对于同一类行为的不同样本,也不一定需要使用相同的分辨率,毕竟距离摄像头的距离不一样。
  • C2F结构如下图
    • 感觉本质就是模型融合(model ensamble)
    • 输入的RGB图像在时间维度和空间纬度都会进行下采样。
    • C2F可以看成是模型集成的一种方式,在Coarse模型不顶用的情况下才会启用Finer的模型。下图中就包含三个模型,C(Coarse)/M(Finer)/F(Finest)。
    • image_1eibou3lb1f0nf9d1iok4eqvsb9.png-305.2kB
    • image_1eibouajit6v151l14qqmv01omam.png-135.6kB
  • Enhanced receptive fields via spatiotemporal decomposition
    • 说的很玄乎(4行英文没有一个逗号和句号,你敢信?想到了英文阅读理解中的长句处理…),我没完全明白,下文可能有问题。
    • 所谓 spatiotemporal decomposition 指的就是输入图像在时空纬度上的下采样。
    • 所谓 enhanced recptive fields 指的就是基于不同输入的不同分支得到的感受野在变化。
    • 最终实现方式就是,Coarser的分支感受野小,finer的分支感受野大。
    • 文中提到,在行为识别中,为了提高性能,最好不要用中心切片,而要使用整张图片。
    • 根据上面这个结论,可以得出,增强卷积核的感受野会对行为识别起到正面的作用。
  • Feature fusion,其实就是不同分支的结果如何融合。
    • 每个分支经过fc后(softmax前)得到一个特征。
    • 特征融合方式就是将不同分支的特征进行拼接concat。
    • 之后的FC使用的是 reparameterized FC,没看明白,也没细看。
  • Coarse exit strategy,即coarser的分支在什么情况下可以输出,不用再使用finer分支。
    • 这一步非常重要,我们需要根据当前的算力,选择不同的策略,希望能用一个参数来实现上面这个功能。
    • 基本方法就是设置阈值,当最大概率大于某个阈值时就不再使用finer的分支。
    • 提出了一些方法来选择阈值,还有一些方法来设置当前概率。
  • 视频的两种采样方法
    • dense sampling:取连续帧
    • strided sampling:将视频分为若干段,每一段取帧

3. 效果如何

  • 使用C2F之后,参数增加(模型变大),但FLOPs减少,性能些许提高。
    • image_1eibqd2r01f9r1jgd14gibmq1per1g.png-181.8kB
    • image_1eibqcpn21o34ak91ukp1leu96313.png-125.7kB

4. 还存在什么问题&有什么可以借鉴

  • 这个思路非常好,感觉用在实时系统中也实用。

  • 想到了FAIR的multi-grid训练,也是coarse-to-fine的思想。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值