数据预处理有四个任务,数据清洗、数据集成、数据 变换和数据规约
本节先讲数据第一个:数据清洗数据清洗包括1.缺失值处理 2.异常值处理; 其中缺失值的处理有3种:不处理(做建模铁定不选),删除(可以考虑),数据补差(99%的同僚选择)
而补差的方式主要用下面的5类,重点是第五个,插值法
1. 补插均值/中位数/众数
2. 使用固定值 .
3. 最近邻补插
4. 回归方法
5. 插值法
插值法又包含好多种:(1)拉格朗日插值法(最容易看的懂的,用的人较多,用错的也多)(2)牛顿插值法(3)Hermite插值 (4)分段插值 (5)样条插值 (后三种相对用的较少)# Z$ w/ u
(1)拉格朗日插值法(划重点)
其原理百度就是构建一个多项式,这个多项式很厉害,假如说我们的数据是城市里的银行位置坐标,那这个多项式就是一条过所有银行的公路,所以,当我们要问50km外的银行在哪儿时,我们顺着这条路算就可以算出来。当然,算出来的坐标只是一个近似值。(当给出的已知银行坐标点越多,近似误差越小)。
关于拉格朗日多项式的构建原理,这里不说了,百度各种解释,这里只说一下
插值法补齐缺失数据_[建模教程] 新手进阶建模(8)数据的预处理 第一部分
最新推荐文章于 2024-01-28 20:34:21 发布