代码链接 :http://gaze360.csail.mit.edu
论文链接:https://paperswithcode.com/paper/gaze360-physically-unconstrained-gaze
Gaze360模型
注视是自然的连续信号。凝视注视和过渡产生一系列凝视方向。为了利用这一点,论文提出了一个基于视频的凝视跟踪模型使用双向长期短期记忆胶囊(LSTM),它提供了一种对序列进行建模的方法,其中一个元素的输出取决于过去和将来的输入。在该论文中,作者利用7个帧的序列来预测中心帧的视线。注意,仅包括单个中央框架的其他序列长度也是可能的。
上图说明了Gaze360模型的体系结构。卷积神经网络(主干)分别处理每个帧中的头部作物,该神经网络产生具有256维的高级特征。这些特征被馈送到具有两层的双向LSTM,这些LSTM消化前向和后向向量中的序列。最后,将这些向量连接起来并通过一个完全