论文题目:Recurrent Neural Networks for Multivariate Time Series with Missing Values (发表在 Scientific reports 2018,被引用160+)
背景
多变量的时间序列广泛存在于各种应用场景。由于种种原因,它们往往不可避免地会携带遗漏的观测结果,这些缺失值或缺失的 pattern 往往能够为一些有监督的学习任务(如分类)提供丰富的信息。
目前已经有些方法能够处理时间序列中缺失值。最简单的方法是忽略掉缺失值,直接在观察到的值上做分析,当缺少率较高时显然效果不好。另一类方法是去填充缺失的值,也叫数据补全。实际中用的比较多的有平滑(smoothing)、插值(interpolation)和样条(spline)等,但是这类方法在补全时不能捕获变量之间的相关性已经复杂的 pattern。其他比较高级的补全方法是去估计缺失值,这类方法包括 spectral analysis, kernel methods, EM algorithm, matrix completion 和 matrix factorization。这些方法可以结合起来利用,降低结果的不确定性。但是,数据补全和下游的任务(如预测)被分离为两个子任务,这样补全的p