这是百度2018年底发表的一篇论文。
主要思想:
可以基于任何现有的网络结构,插入三个模块
步骤:(tensorflow版本的)
输入图像序列【8,224,224,3】--》把输入的图像每N个图像(本次2个)看成一个超图【4,224,224,6】,相应的第一层卷积核通道需要修改下 --》经过RESnet两个残差块(3,4,6,3)--》加入temporal module在(4和6之后插入):这个时候输入为【4,28,28,512】先变成--》【1,4,28,28,512】---》经过3d卷积池化,归一化激活 在reshape成【4,28,28,512】,加入这个模块的意义在于:先前我们通过2d 对超图的卷积可以得到局部的时间和空间上的一些特征。这个时候就是我们得到global的时间和空间特征。--》在全连接层之前加入Temporal Xception模块是为了高效的在序列间建模和易于端到端优化而设计的(我理解为更好对时间信息空间编码,因为是用的一维卷积)具体的步骤是:输入是【4,1,1,2018】,先变成【1,4,2018】归一化--》一维卷积+两次分通道卷积 在BN->relu--maxpoling 。最后reshape全连接输出结果。
该网络主要用于视频动作分析的,这次我们哪来最视频分类效果也比较好