注意
题目给出的数据不能直接使用,要对数据进行异常处理
缺失值
1.缺失值太多就要把该项指标删除(40%相当大)
2.处理:对精度不高
定量数据,使用均值
定性数据,使用众数
3.对数据精度有要求
但对导数没有要求,使用牛顿插值法
对导数有要求,使用样条插值法(飞机机翼,医学图像)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/6c289a7e4f65a95167829f10e730b478.png)
异常值
1.先找到异常值,再将其删去,用上面缺失值的方式补上
2.找异常值:正态分布(不适合排队论)
在正态分布中σ代表标准差,μ代表均值,x=μ即为图像的对称轴。
标准差
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/a4640f15fcbc7a71334a39d04c704c15.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/b6362118ba6ff58ed2ca4a21eb6a6030.png)
3.画箱型图(普遍适用)
1)从上到下,即数据从大到小
2)IQR越大,箱子越大,数据分散
3)在区间范围之外为异常值
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/9bc7a57b7df0c94170552c817c148644.png)