video action recognition
陳大遙
研究生第一天
展开
-
C3D:Learning Spatiotemporal Features with 3D Convolutional Networks
1.首先固定h和w均为3,构造小网络进行对比实验找寻最佳的3D kernel depth,最终确定为3. 2.使用3X3X3的卷积构造C3D。 论文写作灵感: A实验:iDT+SVM B实验:C3D+SVM C实验:iDT+C3D+SVM D实验:C3D+SVM+imagenet pretrain C大于A和B:可解释为iDT和C3D具有互补性 D相对于B没什么提升:C3D已经具有...原创 2019-05-21 11:00:21 · 277 阅读 · 1 评论 -
Asymmetric 3D Convolutional Neural Networks for action recognition
1.3x3x3的卷积拆分成3x1x1 ,1x3x1 ,1x1x3. 2.为了减少网络层数,用3x1x1 ,1x5x1 ,1x1x5去代替两个3x3x3的卷积。为什么不使用5x1x1呢,因为使用3x1x1时最后一层的temporal视野域已经大于16(输入帧数),所以还是用参数量较少的3x1x1。 Evaluation of asymmetric 3D convolution: (值得参考)t...原创 2019-05-22 11:09:47 · 629 阅读 · 0 评论