1. Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks ICCV2015
把时序数据的三维卷积分解成先2维空间卷积 (spatial convolutional layer), 再1维的时间卷积(temporal convolutional layers)。
视频片段切割:剪裁数据增强,固定时间段切割。
Vdiff:时间相隔dt的画面之间的diff,以捕捉短程信息。与V的长程信息一起来预测。
ImageNet预训练:2-D空间卷积可以允许使用图片来进行预训练。
SCI based score fusion:多个结果不平均对待,给可信度最高的结果更高的权重来得到更好的结果。
可以参考博客:https://blog.csdn.net/zzmshuai/article/details/84880257
2. Temporal Convolutional Networks for Action Segmentation and Detection CVPR2017<