数学建模——数据处理(数据清洗及数据变换)

数据预处理:数据清洗、数据集成、数据变换及数据规约

 

 1.缺失值处理

(1)删除记录:指当该组数据某一个案的数据缺省时,删除这组个案的数据

适用于数据过量或缺失数据对建模无影响的情况

(2)数据插补:使用不同的插补方法将缺省的数据补齐

均值/中位数/众数:样本个体对结果无关键影响;连续型——平均值、中位数,离散型——众数

最近邻插补:数据量较少,缺失数据与其相邻数据有逻辑关系(eg:自然地理的规律)

回归插补:数据量较大(时序缺失)

拉格朗日插值法/牛顿插值法:可以找到一个多项式,其恰好在各个观测的点取到观测到的值

适用于缺失值对结果影响较大或题目就是插值或数据补全类,但插值点不宜过多,样本间应存在联系

样条插值:样本点数据间无必然逻辑关系,彼此独立

MATLAB插值:一维插值

yi = interp1(x,y,xi,'method')
%x,y为插值点,xi,yi为被插值点和结果,x,y和xi,yi通常为向量
%'method'表示插值方法:常用的有'nearest''linear''spline''cubic'

spline:三次样条插值,构造三次多项式进行差值

MATLAB插值:二维插值

zi = interp2(x,y,z,xi,yi,'method')
%x,y,z为插值点,xi,yi为被插值点,zi为输出的插值结果,即插值函数在(xi,yi)处的值;x,y为向量,xi,yi为向量或矩阵,z和zi为矩阵
%'method'表示插值方法:常用的有'nearest''linear''spline''cubic'

例如:

x = 1:5;
y = 1:3;
temps = [82 80 81 82 84;79 63 61 65 81;84 84 82 85 86];
xi = 1:.2:5;
yi = 1:.2:3;
zi = interp2(x,y,temps,xi',yi,'spline');
mesh(xi,yi,zi)

得到的图像为

 2.异常值处理方法:

(1)正态分布3σ原则

计算步骤:

1.计算均值μ和标准差σ

2.判断每个数据值是否在(μ-3σ,μ+3σ)内,不在则考虑为异常值

一般适用于正态分布,例如人口数据,测量误差,生产加工质量,考试成绩

不适用:总体符合其他分布(eg:公交站人数排队论)

(2)画箱型图

箱型图中,把数据从小到大排序

下四分位数Q1是排第25%的数值,上四分位数Q3是排第75%的数值

四分位距IQR=Q3-Q1

一般设置[Q1-1.5*IQR,Q3+1.5*IQR]内为正常值

3.数据变换

3.1一致化处理方法

一般问题的数据指标可能有“极大型”“极小型”“中间型”“区间型”指标(全针对期望取值)

以下为极大化处理

极小型:对某个极小型数据指标x,则令x'=1/x或x'=M-x

中间型:x'=2(x-m)/M-m m≤x≤1/2(M+m),x'=2(M-x)/M-m 1/2(M+m)≤x≤M

区间型:x'=1-a-x/c x<a,x'=1 a<x<b,1-x-b/c x>b

3.2数据指标的无量纲化处理

容易出现“大数吃小数”的错误,使得结果不合理

常用方法:标准差法、极值差法和功效系数法

(1)标准差法 

(2)极值差法

 (3)功效系数法

 

 

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值