数学建模之数据预处理(缺失值和异常值)

1.缺失值

缺失值就是比赛提供的数据,发现有些单元格是null或空的。

1、缺失太多:例如调查人口信息,发现“年龄”这一项缺失了40%,就直接把该项指标删除

2、最简单处理:均值、众数插补

  • 定量数据,例如关于一群人的身高、年龄等数据,用整体数据的平均值来补缺失

  • 定性数据,例如关于一群人的性别、文化程度;某些事件调查的满意度,用出现次数最多的值补缺失

适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据

3、Newton插值法

根据固定公式,构造近似函数,补上缺失值,普遍适用性强。

缺点:区间边缘处的不稳定震荡,即龙格现象。不适合对导数有要求的题目

适用赛题:热力学温度、地形测量、定位等只追求函数值精准,而不关心变化的数据。

4、样条插值法

用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率

适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、没有突变的数据

(该三种方法足够用)

图片

2.异常值

例如一组身高的数据,大部分数据都是一点几米,突然蹦出个5米,显然和其他数据差异过大,属于异常值。

处理方法有两种:正态分布3σ原则,和画箱型图。

1、正态分布3σ原则

数值分布在(μ-3σ,μ+3σ)中的概率为99.73%,其中μ为平均值,σ为标准差。

求解步骤:1.计算均值μ和标准差σ;2.判断每个数据值是否在(μ-3σ,μ+3σ)内,不在则为异常值。

适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。

不适用题目:总体符合其他分布,例如公交站人数排队论符合泊松分布

2、画箱型图

箱型图中,把数据从小到大排序。下四分位数𝑄1是排第25%的数值,上四分位数𝑄3是排第75%的数值。

四分位距𝐼𝑄𝑅  = 𝑄3- 𝑄1,也就是排名第75%的减去第25%的数值

正态分布类似,设置个合理区间,在区间外的就是异常值。

一般设[𝑄1−1.5∗𝐼𝑄𝑅, 𝑄3+1.5∗𝐼𝑄𝑅]内为正常值。

图片

找到异常值后,就当这个异常值是个缺失值,按缺失值的处理方法即可。

  • 11
    点赞
  • 140
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

殇;

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值