存在问题:
1. 利用基于图像的目标直接检测不能充分利用视频数据中内在的、丰富的时间信息,所以提倡对远程视频对象模式进行检测
2. 传统的LSTM不能从根本上模拟连续帧之间的对象关联。
解决方案:
基于上述两点问题,故提出了 关联LSTM 去处理连续帧之间的关联问题:关联LSTM不仅可以目标对象的位置和分类,也能够关联特征去表示每个输出对象(通过最小化这些特征之间的匹配误差,去关联在俩相邻帧中的对象)
视频目标检测的关键在于如何捕获视频数据中固有的时间相干信息,并将这些信息与空间目标检测结合起来。
关联LSTM 和传统LSTM应用到目标检测的区别:使用关联LSTM ,我们能够直接回归目标的位置和类别,同时能产生关联特征(这些关联特征是捕获了空间和时间信息的检测对象的表示,因为它是由LSTM过滤的CNN特征)去表示不同的检测目标,这些表示通过最小化关联之间的误差来进行有优化,来缩小检测同一目标的特征表示,进而改善视频中检测对象之间的信息流,从而输出高质量的关联特征。
这种良好的关联将改善视频中检测对象之间的信息流,从而鼓励LSTM结构输出高质量的关联特性。在我们的目标函数中,我们联合优化了目标回归误差和关联误差。