视频理解 S3D，I3D-GCN，SlowFastNet, LFB

SIGAI_csdn

于 2018-12-19 15:24:56 发布

阅读量7.8k

点赞数 7

分类专栏：机器学习人工智能 AI 文章标签： AI 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SIGAI_CSDN/article/details/85098096

版权

本文介绍了视频理解领域的四篇文章，探讨如何改进I3D模型，实现轻量化并增强性能。S3D通过分解3D卷积降低复杂度；I3D-GCN利用图卷积网络捕捉物体间交互；SlowFastNet通过不同时间分辨率双流网络处理快慢动作；LFB通过长期特征银行解决短期片段的视频理解局限。

摘要由CSDN通过智能技术生成

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

接着上次的《活体检测Face anti-spoofing综述》，再来讲讲arXiv上新挂的文章：

最近看了下几篇动作识别，视频理解的文章，在这里记下小笔记，简单过一下核心思想，以便后续查阅及拓展使用。

文章主要想探索的问题如下：

1.如何改造I3D，使其更轻量且性能更好？

2.如何改造I3D，使其理解视频场景里的物体交互？

3.如何高效融合不同帧率，不同 temporal 分辨率的视频？

4.如何让网络拥有 Long-term 的能力（即理解10秒以上的长视频）？

Separable 3D CNN (S3D) [1], ECCV2018

文章的创新不是很多，但是就像当初提出P3D和R(2+1)D一样，做了很多对比实验，来探讨分解卷积及网络结构设计的性能对比。这里主要贴几个重要结论，后面设计相关网络时可用：

1. 通过实验证明了 top-heavy model design 更轻量，且性能更优：

top-heavy 和 bottom-heavy 的区别是，前者先2D再3D，而后者先3D再2D。故前者在时空分辨率极高的的前几层使用2D卷积，而在时空分辨率较低的后几层对semantic feature进行3D卷积，故更轻量性能更好。

2. 在保持I3D的Inception Backbone不变情况下，将 3x3x3 卷积核都换成 1x3x3 + 3x1x1 卷积，参数更少且性能更好：

最低0.47元/天解锁文章

关注

7
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。