[数学建模] 数据预处理

在进行数据处理之前,往往需要对数据中一些不完美的地方进行预处理,使得我们能够更好地进行数据的分析计算。


缺失值

一、删除

如果某一项缺失数据过多,剩余的记录可能难以再反映出真实的情况,可以考虑删除该项。

二、均值、众数插补

对于一些对个体精度要求不高的数据,可以考虑将缺失的值用均值/众数填充。
例如:人口数量年龄、经济产业情况。

三、牛顿插值法

通过牛顿插值法公式,构造近似函数。
适合于关注函数精确值而不关系函数变化的数据。
例如:地形测量、热力学温度、定位

推荐参考链接

四、样条插值法

适合数据变化曲线较为光滑的数据。
例如:零件加工、水库流量、物体运动轨迹


异常值

对于异常值,处理方法一般是把该值删除,然后按照缺失值的处理方法进行处理。

那么问题来了,如何判断一个值石佛iu为异常值呢?

一、正态分布

数据大概率处于 ( u − 3 σ , u + 3 σ ) (u - 3σ,u + 3σ) (u3σ,u+3σ)内,不在此范围的数据大概率为异常值。

PS:仅适用于符合正态分布规律的数据。

二、画箱型图

基本步骤如下:

  1. 吧数据从小到大排序,下四分位Q1为排在25%的数值,上四分位Q3为排在75%的数值。
  2. 四分位距IQR = Q3 - Q1
  3. 划分正常值区间, [ Q 1 − 1.5 + I Q R , Q 3 + 1.5 + I Q R ] [Q_1-1.5+IQR,Q_3+1.5+IQR] [Q11.5+IQR,Q3+1.5+IQR]。(1.5为习惯取值)

推荐参考链接


参考资料:
参考链接

  • 0
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wingaso

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值