原来不是说好的不做视频与图像改做NLP方向了吗,怎么这篇又是关于原来方面的。因为突然想起了原来的一个点子,是关于卷积神经网络学习算法的,希望通过这个算法使得CNN能够对视频数据进行学习。我是希望先琢磨下这个想法的可行性,然后把它交给师弟师妹们来做,也算是尽了当师兄的责任,以及对原来组员的一个交代吧。所以之后的几篇博客可能还是关于这个方向的。
本篇文章的主要工作是将时序性数据中的时间相干性引入到深度学习的模型结构中去,使其能够对无标签的视频数据进行学习。时间相干性指的是“two successive frames are likely to contain the same object or objects”。时间相干性可以用在无标签的数据中进行有监督的学习,同时其也能有效提高监督型学习任务的学习效果。
半监督学习方法以及transduction都可以通过为无标签数据赋予一个类标签的方法来处理无标签数据。但是如果无标签的数据来源于不同的数据源,那么就无法对其所属类别进行估计,之前传统的方法就无法被使用了。视频数据就是这样的一类数据。
虽然说本篇文章所提出的模型是为了识别视频中的物体,但是可以通过改变模型的目标函数,使得其同样能够适用于其他的任务中。这点上感觉与迁移学习的目的有些类似。记得前面也有一篇博客中也有提到迁移学习的问题。寻求一个较为统一的模型,一直也是我们所追求的。
如果从生物学的观点来看,生物的学习过程并不是以一种纯监督的形式进行的,所以监督型的学习算法并不是一种最