IEEE, 2016
现有的动作识别问题基本分为三种,(1)用滑动窗口来检测动作(2)用分段模型将视频分为多段再识别每段的动作(3)循环模型。(1)没有捕捉长范围的时序信息(2)没有考虑段间关系(3)关注范围有限且难以训练。
由此,作者提出了两种TCN模型:
(1)ED-TCN:使用编码解码结构,只用了卷积、池化和上采样,但能够有效捕捉长范围的时序信息,并且层数相对较少,但每层包含一组长卷积核。
(2)Dilated TCN:不使用池化和上采样,而使用空洞卷积,并在层间加入skip connection。这个模型是对WaveNet的改进,与ED-TCN也有相同点,但这个模型是为语音处理问题设计的。Dilated TCN的层数更多,但每层的空洞卷积的时间步很小。
两种TCN结构都能捕捉分段模型的特征,如动作持续时间,片段之间的转换和类似于循环模型的长范围的时序信息。两种TCN结构的特性有:
(1)计算是按层执行的,每个时间步同时更新,而不是按帧顺序更新;
(2)卷积是随着时间计算的;
(3)每帧的预测是固定长度的时间(被称为感受野)的函数
TCN的输入是一组视频特征(如CNN的输出)