[1] BRITS: Bidirectional Recurrent Imputation for Time Series
Wei Cao, Dong Wang, Jian Li, Hao Zhou, Yitan Li, Lei Li
Tsinghua University, Duke University, Bytedance AI Lab
https://papers.nips.cc/paper/7911-brits-bidirectional-recurrent-imputation-for-time-series.pdf
时间序列在很多分类或者回归中都会用到。但是,在实际应用中,时间序列可能会包含很多缺失值。给定多个可能有关联的时间序列,补充缺失值同时对类别标签进行预测非常重要。
现有的填补方法通常对潜在的数据生成过程加以较强的假设,比如状态空间中的线性动力学。这篇文章提出一种新的适用于时间序列的缺失值填补方法,简称BRITS,该方法基于循环神经网络。
这种方法利用双向循环动力系统直接学习缺失值,不需要任何特定的假设。填补值可以看做RNN图的变量,利用反向传播可以高效更新。
BRITS具有以下几个优势:
1 可以处理多个相关时间序列中的缺失值
2 可以泛化到带有潜在非线性动力学的时间序列中
3 填补过程是数据驱动的(难道还有不是数据驱动的?),可以用于一般的缺失数据的情形。
作者们在三个真实数据集上进行了实验,空气质量数据集,医疗健康数据集以及人口活动位置数据集。实验表明,该方法不仅在缺失值填补中效果最好,而且在分类或者回归任务中效果也是最好的。
这篇文章的贡献如下
带有缺失值的多变量时间序列示例如下
基于无向动力学的缺失值填补示例如下
几种方法的效果对比如下
其中KNN和MF对应的参考资料为
The elements of statistical learning
Multiple Imputation by Chained Equations (MICE)对应的论文为
Multiple imputation by chained equations:what is it and how does it work? 2011
ImputeTS对应的论文为
imputeTS: Time Series Missing Value Imputation in R, 2017
STMVL对应的论文为
St-mvl: filling missing values in geo-sensory time series data
G