论文浏览(25) Region-based Non-local Operation for Video Classification


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:行为识别(视频分类)
    • 作者单位:约克大学
    • 发表时间:2020.7

1. 要解决什么问题

  • CNN本身存在问题。
    • 使用CNN处理问题是,感受野被限制在kernel里。
    • 多层CNN的感受野也都是同一个形状。
    • 上面描述的情况与现实场景非常不一样。
    • 用原文里的话说,要获取 long-range dependencies 都是用多层CNN叠加,这非常不合适。
  • 为了解决上面的问题,原先可以用 Non-local 结构,但该结构也存在问题:
    • 计算两个点之间相互依赖关系的时候,只用了这两个点的信息,而没有充分利用点周围的信息。

2. 用了什么方法

  • 首先回顾了Non-local操作
    • image_1edp42du48e5132gugob79qh313.png-8.4kB
    • 细节不多说了,要注意的就是,对于一个结果 y i y_i yi,其作用的原始 x i , x j x_i, x_j xi,xj两个点,其他未知并没有任何帮助。
  • 之后提出了改进版结构 region-based non-local operation (RNL)
    • 最初的设想:RNL中两个点之间的相互关系不仅仅与这两个点本身有关,还与其周边领域有关。这个领域叫做region。
    • 所以定义以某个点为中心的立方体为 N i N_{i} Ni,则两个点之间的关系可以通过以下公式表示:
      • image_1edp48f0q64u1lbg18qi6j2job1g.png-3.7kB
    • 上面公式中的 θ \theta θ 指的是information aggregation function,作用是分别总结了每个channel中某个region的特征信息。该函数的实现如下公式所示:image_1edp4e82v1f3418nkdoq1tg02cm1t.png-34.4kB
    • 最终RNL的公式可以写成 image_1edp4g3n3jki6rl1nv314s51vlt2a.png-6kB
    • 上面的 f() 函数用于计算两个点的相似度
      • 可以使用Non-local中的 gaussian version dot product version,前者形如image_1edp4kgso7eeqdg14eittsiak2n.png-4.4kB,后者形如image_1edp4lk7d64va7gff5120n1l7834.png-4.7kB
      • 本文提出可以使用 cosine version,即image_1edp4nnn0fiv6f65ft19um19vv3h.png-10.3kB
    • RNL 的网络结果如下图image_1edp4q52h1p4713h91k7abgm2ne4b.png-106.4kB
  • 如何将RNL用到普通视频分类网络中
    • 由于RNL中用到的权重关系中,每个channel中电的信息至于当前channel的其他region有关,所以这里可以用 Sperabale Convolution 实现。
    • image_1edp4p19n1cum2j1b98mgb1fp63u.png-72.8kB

3. 效果如何

  • 总而言之,性能就是好
    • image_1edp3uno71oqr1sj9p0o1l811pvm9.png-157.5kB
    • image_1edp3v75c1al181prvlhaq11rpm.png-70kB

4. 还存在什么问题

  • 可以替代Non-local,那用法应该也应该与Non-local类似吧。

  • 现在也就看了个大概,细节还是要复现的时候看看。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值