介绍:
其中C3D是3d卷积的比较有意义的开端,I3d在C3D之后做了一系列研究,包括引入双流网络,和LSTM网络,并使用已经训练好的2D图像分类模型的参数维数扩充后用做3D网络的预训练模型。S3D是在I3D的基础上,探索了卷积拆分,使得模型的量级下降,并在后续的工作中加入了Graph Convolution的一些思想。
TSN:time segment networks,主要时提出了一种新的采样策略,即将视频分K段,从每段中随机挑选若干(s)帧组成片段,则共有K*s帧被采样(这里不考虑反转裁剪等操作),最后融合K个段的预测结果。
TSM:time shift module则主要是引入了时间转移模块,沿时域做特征转移。加强了时域信息的交流融合。其帧采样策略采用的是稀疏采样策略(不同于传统的密集采样),继承了TSN的采样策略。
上面是一个整体的把握,如果有什么细节大家可以参考论文原文及github源码。
以下是几篇相对较好的博客,供大家参考
C3D:https://www.jianshu.com/p/09d1d8ffe8a4
TSM:https://zhuanlan.zhihu.com/p/66251207
S3D:https://blog.csdn.net/SIGAI_CSDN/article/details/85098096
I3D:https://zhuanlan.zhihu.com/p/58355093
TSN:https://blog.csdn.net/zhang_can/article/details/79618781