行为识别 - X3D: Expanding Architectures for Efficient Video Recognition

0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:视频理解,包括行为识别、Temporal Action Detection
    • 作者单位:FAIR
    • 发表时间:2020.4

1. 要解决什么问题

  • 当前视频理解相关的模型基本都是在2D卷积神经网络的基础上进行一些扩展。
    • 输入数据从 N, C, H, W 增加时间尺度 N, T, C, H, W
    • 将2D卷积操作转换为3D卷积操作,增加对时间尺度的处理。
    • 这种扩展一般来说会提高性能,但计算量也会大大增加。
  • 如果在多个尺度上进行扩展,模型效果会如何呢?
  • 一句话总结:扩展网络的参数,网络的参数不只有模型相关(如深度、特征图深度、宽度等),还有输入帧数量、尺寸、帧率等。

2. 用了什么方法

  • X3D,是Expand 3D的缩写。
  • 主要思路:
    • 之前的网络主要是在时间维度上扩展2D卷积神经网络。
    • 但时间尺度上扩展不一定是最佳选择,还可以在别的尺度上扩展。
    • 这种设计的灵感主要来源于之前设计卷积网络都是在depth/resolution/width上进行扩展,另外还借鉴了机器学习中特征选择的方法。
  • 需要扩展的axis(这几个axis可以理解为网络的几个基本参数……)
    • 输入数据的总帧长度。
    • 输入数据的帧率。
    • 输入帧的尺寸。
    • 网络宽度(其实就是每个conv的的通道数量)
    • bottlenet层宽度(即bottlenet中前两个conv的通道数量)
    • 网络深度(其实就是bottlenet的数量)
    • image_1ea1i3fkbpplc2k1m3sg81rvt9.png-189.8kB
  • 模型训练过程(好像就叫做Coordinate Descent):
    • 首先,给定一个初始状态,如下表所示,认为所有参数取值为1。
    • 然后,每次改变一个参数,控制参数量与算力、训练模型,选择性能最后的模型作为下一步的输入。
    • 以此类推,直到达到所需要的算力为止。
    • image_1ea1k2cbl1sc4pjf1pki6na1ivqm.png-244.1kB
  • 一次模型训练的实例
    • image_1ea1n13ms8d7j9mg73jpm1nod1g.png-204kB
  • 上面训练过程中所谓的改变一个参数,好像也是预先定义了几种,没细看,应该就是对几个参数的改变。
    image_1ea1mpq7j1i6s1pms1m1ntsi1jl513.png-200.8kB

3. 效果如何

  • 太666了,在比之前的模型少4.8倍multiply-adds、少5.5倍参数的情况下,达到了差不多的精度……
    • 尼玛太233了。
  • 不同尺寸的X3D模型
    image_1ea1n95buqff1r5n91k1ro3s61t.png-163.5kB
  • 在各种数据集上的效果,2333
    image_1ea1nnso61j8si5p3fc15ra3r02a.png-255.7kB
    image_1ea1noanom44mkn15da1ovo1rdr2n.png-80.2kB
    image_1ea1nohk01vqu1jhvpe11dtc3v634.png-271.8kB
  • 最666的图,跟当时看到yolo论文的感觉差不多,性能碾压(没把自己放到第二象限就已经很给面子了)
    image_1ea1nqgr0b2dc761so3149bpal3h.png-368.6kB

4. 还存在什么问题

  • 效果这么6,但很难复现,主要是训练代码吧。坐等开源。
    • 然后开源的没有训练代码,只有训练好的结构。
  • 不知道放到手机上运行会如何。
    • 必须要用PyTorch的某个patch才能达到加速的效果,如果用默认的PyTorch,速度特别慢。
  • 我没看过 EfficientNet3D的论文,可能跟本文很相关,后续要补看一下。
  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值