其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。
接着上次的《活体检测Face anti-spoofing综述》,再来讲讲arXiv上新挂的文章:
最近看了下几篇动作识别,视频理解的文章,在这里记下小笔记,简单过一下核心思想,以便后续查阅及拓展使用。
文章主要想探索的问题如下:
1.如何改造I3D,使其更轻量且性能更好?
2.如何改造I3D,使其理解视频场景里的物体交互?
3.如何高效融合不同帧率,不同 temporal 分辨率的视频?
4.如何让网络拥有 Long-term 的能力(即理解10秒以上的长视频)?
Separable 3D CNN (S3D) [1], ECCV2018
文章的创新不是很多,但是就像当初提出P3D和R(2+1)D一样,做了很多对比实验,来探讨分解卷积及网络结构设计的性能对比。这里主要贴几个重要结论,后面设计相关网络时可用:
1. 通过实验证明了 top-heavy model design 更轻量,且性能更优:
top-heavy 和 bottom-heavy 的区别是,前者先2D再3D,而后者先3D再2D。故前者在时空分辨率极高的的前几层使用2D卷积,而在时空分辨率较低的后几层对semantic feature进行3D卷积,故更轻量性能更好。
2. 在保持I3D的Inception Backbone不变情况下,将 3x3x3 卷积核都换成 1x3x3 + 3x1x1 卷积,参数更少且性能更好: