我有一个时间序列(“x”数据均匀采样在“t”时间),有NaN块。 例如:
x = [ 1 2 4 2 3 15 10 NaN NaN NaN NaN 2 4 NaN 19 25]
t = [0.1 0.2 0.3 ...etc..]
我想在NaN的执行插值。
最基本的方法是从最左边的数据点到最右边的数据点进行线性插值。例如。一条从x = 10到x = 2的直线和4个NaN值将被分配来自该行的值。
时间序列的长度约为150万〜10000个NaNs,所以我不想纳入远离NaN位置的数据(在插值中)。一些NaN的长度为1000-2000。
X(isnan(X)) = interp1(find(~isnan(X)), X(~isnan(X)), find(isnan(X)), 'linear');
将使用整个时间序列在NaN上进行线性插值。
我如何内插本地?线性应该足够了。也许线性插值纳入NaN块的左侧和右侧几个点(可能为100-200点)。自然邻居或样条(?)算法可能更合适;我必须小心,不要对时间序列添加异常行为(例如,为频率添加虚构“功率”的插值)。
更新: 时间序列记录一年多长时间内的分钟取样温度。线性插值就足够了;我只需要填写NaN的〜6-7小时长度间隙(我在NaN间隙之前和NaN间隙之后提供数据)。
2012-11-19
Justin
+1
直线插补只使用相邻的值的区域被插入,所以不需要担心“使用整个时间序列”。或者是问题表现? –
+0
啊我傻了。我的印象是,它使用最小二乘线性拟合,然后使用拟合分配点。 如果interp1'linear'只是连接相邻的左右点并进行插值,'cubic'和'pchip'会产生什么差异?例如。它不符合数据的立方数然后插入? –
+2
你问的是什么是最好的插值方法?如果是这样,那么最好的方法真的取决于你的应用程序。例如,对于某些应用程序,您可能只想插入使用过去的数据,因为像线性插值这样的方法意味着您提前知道下一个非NaN观测值是什么。在频谱的另一端,您可以应用一种EM算法,该算法用有条件的期望值替换缺失的观测值,并以每个其他观测值的联合分布为条件。所以如果不知道你的应用程序就很难回答。 –