摘要
视频分析大部分工作集中在对视频帧的分类标记,或者短时间的行为预测,文章使用CNN+RNN进行长时间的行为预测
Introduction
一些论文能够将视频起初的动作进行分类识别[23][5][14][24],一些预测下一个时刻的动作[19][6][9],目前开始有预测行为开始的时间的论文.
本文将预测五分钟之内所有发生的动作,以及动作发生的起始时间。本文提出两种方法来实现:
1.使用RNN预测给定动作序列当前动作的持续时间,预测下一个动作,以及时间。将得到的预测反馈给RNN来进行更长远的预测。
2.CNN 一次预测所有动作的时间和动作的编码矩阵
结果:在20s内的预测,RNN优于CNN,在超过40s的时间预测,表现相当。
Related works
In [7], observed activities are modeled with spatio-temporal graphs which are used for anticipating object affordances,trajectories, and sub-activities.
[7] H. S. Koppula and A. Saxena. Anticipating human activities using object affordances for reactive robotic response. IEEE Transactions on Pattern Analysis and Machine Intelligence,38(1):14–29, 2016.