1.插值法处理缺失值
1.1插值法介绍
当数据集中存在缺失值时,插值法可以作为一种处理手段。它可以根据已知的数据点,推断出缺失值的可能值。常见的插值方法包括线性插值、样条插值、多项式插值等。然而,插值法在处理缺失值时需要注意,插值法不适用于缺失大量数据的情况,即如果缺失值较多或者缺失值分布与整体分布差异较大,插值可能引入较大的误差。
一般情况下,只会用到一维和二维插值,因此本文只介绍interp1,interp2;一般的插值方法有:‘nearest’最邻近插值;‘linear’线性插值;‘spline’三次样条插值;‘cubic’立方插值;
yq = interp1(x, y, xq, method)
%x 和 y 是已知的数据点坐标。
%xq 是要查询的x坐标。
%method 是插值方法(如'linear', 'spline', 'pchip', 'cubic', 'nearest'等)。
1.2interp1函数一维插值
1.2.1单元格直接缺失数据
举例说明:
x = [1, 2, 3, 4, 5]; y = [3, 5, 7, NaN, 9]; % 原始数据,NaN表示缺失值
那么此时,我们的插值原始数据就需要改成:
x_known = [x(3), x(5)]; % 已知x值 ;y_known = [y(3), y(5)]; % 已知y值
则