论文:https://arxiv.org/abs/1608.00859
代码:https://github.com/yjxiong/temporal-segment-networks
1. 引言
在视频分类中,对长时间域的建模有利于掌握整个视频的类别。而ConvNets擅长的是对appearance的建模和短时的motion。因此对于长时域结构的建模,CUHK提出了TSN。
视频里面的连续帧是存在很多冗余信息的,所以dense temporal sampling是不必要的,sparse temporal sampling比较合适。所以TSN的思想之一就是从长的视频中稀疏采样一些帧,然后再聚合起来,这样就能建模长时间域了。另外一个思想,TSN借鉴于two-stream的结构来同时建模appearance和dynamic。
2. TSN
2.1 网络结构
TSN的结构是two