这次读的这篇文章的题目是:“Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis”。
原来在动作识别领域所使用的方法一般都是人工选取的特征。本篇文章的工作就是使用了一种无监督的学习方法自动地从视频中学习特征。所使用到的方法是Independent Subspace Analysis(ISA)。文章中对该算法进行了一些改进,主要是使用了stacking和卷积两种方法,使模型能够对分层特征进行更好的学习。
ISA算法是Independent Component Analysis(ICA)算法的扩展,它们在natural image statistic领域内都是非常著名的。ISA算法的优点就是“robust to local translation while being selective to frequency, rotation and velocity”。而它的缺点则在于当输入数据的维度非常大时,算法的学习速度就会非常慢。所以文章使用了stacking和卷积的方法来加快学习的速度。具体的步骤为:先在small input patches上学习特征,再对学习到的特征进行卷积,将卷积的结果输入到下一层网络中去。
ISA的网络结构如下图所示: