本文出自论文Very Long Term Field of View Prediction for 360-degree Video Streaming,用于提高360度视频流中的视点预测。
本文提出基于两种FoV表示的多个预测模型:一个使用FoV中心轨迹,另一个使用表示FoV中心分布对的等矩阵热度图。在两个流行数据集上的评估证实出所提出的模型可以显著地超越基准模型,另外其他用户的FoVs对于提高长时期预测也非常有用。
一、引言
- 我们将FoV预测问题作为一个序列预测问题,并提出了两组预测模型:trajectory-based 方法,heatmap-based 方法。
- 第一组中,我们预测未来几秒内FoV中心的平均值和标准差,这个方法是为基于视点流系统而开发的,客户端可以基于预测的FoV平均值和标准差,来请求未来几秒内的一个单一视点。我们提出一个LSTM序列到序列的模型,通过使用其他观察者的视点轨迹来帮助特定用户未来视点轨迹的预测。
- 在heatmap-based 方法中,我们将几秒内所有帧的FoV分布作为一个热度图,这个方法是为tile-based 流系统而开发的,客户端基于所预测的热度图来请求未来几秒内的多个tiles。我们提出一个卷积LSTM模型通过过去观察者的热度图序列,来预测未来目标观察者的热度图序列。我们进一步通过考虑使用其他用户的热度图序列和来自视频序列的显著性映射,来帮助预测目标用户的未来热度图。
二、相关工作
- FoV预测算法可以被分成两类:trajectory based, content based。 一个最近的工作提出了两个深度强化学习模型:一个离线模型被首次用于仅根据视觉特征,来估计每一帧潜在FoV的热度图;一个在线模型接着被用于根据先前观察的头部位置和来自离线模型的热度图,来预测头部移动。
- 先前研究使用了交叉用户行为而不是目标用户的历史轨迹,其结合了线性回归(LR)和KNN 聚类。FoV中心被首次使用一个线性回归模型来预测,然后前K个在LR结果周围最近的其他用户注视点被用来提高预测精度。
- 目前工作与先前的相关研究的一个关键不同为:目前集中于预测一个更长时间范围内的FoV,可以支持流系统提前数秒来预先存入未来视频片段,并对于带宽波动具有更强的鲁棒性。
三、Trajectory-based 预测
- 基于用户个人历史记录的预测:为了适应不同输入数据类型和分布,我们采用神经机器翻译结构 seq2seq 模型。我们使用一个LSTM来编码历史轨迹 x t x_t xt,并使用最后一个隐藏状态 h T h_T hT和记忆状态 c T c_T cT来作为历史记录表示。然后我们使用另一个LSTM(被 h T 和 c T h_T 和 c_T hT和cT初始化)和一个初始输入 ( μ