数学建模：数据预处理——数据清洗、数据变换

NLP4RE

已于 2024-02-28 11:59:14 修改

阅读量9.3k

点赞数 57

分类专栏：数学建模文章标签：数学建模

于 2024-02-28 11:35:46 首次发布

本文链接：https://blog.csdn.net/gxnuer_22se/article/details/136341633

版权

数学建模专栏收录该内容

3 篇文章

订阅专栏

数据预处理专题

数据预处理是什么？

在数学建模赛题中，官方给所有参赛选手的数据可能受到主观或客观条件的影响有一定的问题，如果不进行数据的处理而直接使用的话可能对最终的结果造成一定的影响，因此为了保证数据的真实性和建模结果的可靠性，需要在建模之前对数据进行相关的预处理工作！

数据预处理一般包括：数据清洗、数据集成、数据变换、数据规约。
在这里插入图片描述

数据预处理——数据清洗

当我们得到一组数据时，这组数据可能会存在一些缺失值和异常值（噪声数据）。此时我们进行数据清洗，

主要包括两个部分：缺失值处理与异常值处理。
在这里插入图片描述

1、缺失值处理

定义：（字面意思）。

方法：删除记录、数据插补、不处理。

（1）删除记录

定义：指当该组数据某一个案的数据缺省时，删除这组个案的数据。

这种方法的优点是处理方便，但在数据较少时要慎重使用。

（2）数据插补

定义：使用不同的插补方法将缺省的数据补齐。

主要插补方法有：均值/中位数/众数插补、使用固定值插补、最近邻插补、回归方法插补、插值法插补。

在这里插入图片描述

最近邻插补：即在记录中找到与缺失样本最接近的样本的该属性插补，可以通过计算对象间的欧式距离衡量。
回归方法插补：根据已有数据和与其有关的其他变量的数据建立拟合模型来预测缺失值。
插值法：常用的插值法有很多，主要有拉格朗日插值法、牛顿插值法。

言归正传，真的遇到了，我们还是要用Matlab插值：

一维插值：

yi=interp1(x,y,xi,'method')
% x,y为插值点，xi,yi为被插值点和结果，x,y和xi,yi通常为向量
% 'method'表示插值方法：常用方法有'nearest''linear''spline''cubic'

nearest——最邻近插值：插入与其距离最近的值

linear——线性插值：构造线性函数进行插值

spline——三次样条插值：构造三次多项式进行插值

cubic——立方插值：构造立方函数进行插值

‘ method’缺省时默认为线性插值。

举例：

% 一维插值
clc;clear all;
y=[0.31472 0.84549 0.98429 0.81619 0.51237]; % 原因变量
x=[1 2 3 4 5]; % 原因变量
x1=0:0.1:5; % 新自变量，从1插到5，梯度为0.1，共插51个值
y1=interp1(x,y,x1,'spline'); % 按 三次样条插值 的方法插值
plot(x1,y1); % 绘制二维曲线图（插了51个值，故为平滑的曲线）

在这里插入图片描述

上图对应的是第11个值，即0.3147，在此之前之所以y1有小于0的部分是因为绘图过程中连点成线后造成的，在直线y=0下侧的点并无实际意义。

二维插值：

yi=interp2(x,y,z,xi,yi,'method')
% x,y,z为插值点,xi,yi为被插值点,zi为输出的插值结果,即插值函数在(xi,yi)处的值
% x,y为向量,xi,yi为向量或矩阵,而z和zi则为矩阵
%'method'表示插值方法：常用方法有'nearest''linear''spline''cubic'

nearest——最邻近插值：插入与其距离最近的值

linear——双线性插值：构造两组线性函数进行插值

spline——双三次样条插值：在每个区间内构造三次多项式进行插值

cubic——双立方插值：构造立方函数进行插值

‘ method’缺省时默认为双线性插值。

举例：

% 二维插值
clc;clear all;
x=[123 55 89 84 56 54 100]; % 原x
y=[2 5 8 9 10 16 15]; % 原y
z=[165 654 852 254 0 456 251]; % 原z
x1=50:0.1:150; % 新x
y1=0:0.1:20; % 新y
[x1,y1]=meshgrid(x1,y1);
z1=griddata(x,y,z,x1,y1,'linear'); % 新z（计算结果）
meshc(x1,y1,z1); % 绘制三维曲面图

在这里插入图片描述

（3）不处理

定义：有时我们可以将所有缺省数据的样本划分为另一组，进行特殊处理。

2、异常值处理

定义：一组身高的数据，大部分数据都是一点几米，突然蹦出个5米，显然和其他数据差异过大，则判断该数据属于异常值。

方法：正态分布3σ原则、画箱型图。

（1）正态分布3σ原则

定义：数值分布在(μ-3σ,μ+3σ)中的概率为99.73%，其中μ为平均值，σ为标准差。在这里插入图片描述
求解步骤：

计算均值μ和标准差σ。
判断每个数据值是否在(μ-3σ,μ+3σ)内，不在则为异常值。

适用题目：总体符合正态分布，例如人口数据、测量误差、生产加工质量、考试成绩等。

不适用题目：总体符合其他分布，例如公交站人数排队论符合泊松分布。

cleaned_data = data1;  % 创建一个副本来存储处理后的数据，另：data1为矩阵

for i = 1:size(data1, 1)
    data_te = data1(i, :);
    data_mean = mean(data_te); % 算平均数μ
    data_std = std(data_te); % 算标准差σ
    index = data_te < (data_mean - 3 * data_std) | data_te > (data_mean + 3 * data_std); % 3σ原则
    cleaned_data(i, index) = NaN; % 使用逻辑索引保留非异常值
end

% 删除包含 NaN 的行
cleaned_data(any(isnan(cleaned_data), 2), :) = [];

在这里插入图片描述

（2）画箱型图

定义：箱型图中，把数据从小到大排序。下四分位数Q1是排第25%的数值，上四分位数Q3是排第75%的数值。四分位距IQR = Q3-Q1，也就是排名第75%的减去第25%的数值正态分布类似，设置个合理区间，在区间外的就是异常值。一般设[Q1 − 1.5 * IQR,Q3 + 1.5 * IQR]内为正常值。
在这里插入图片描述

数据预处理——数据变换

1、数据类型的一致化处理方法

定义：一般问题的数据指标 x₁,x₂,…,x_m(m>1) 可能有极大型、极小型、中间型、区间型指标。

极大型：期望取值越大越好；比如成绩，肺活量等。

极小型：期望取值越小越好；比如挂科率，失误率等。

中间型：期望取值既不要太大，也不要太小为好，取适当的区间为最好；比如体重，头发长度等。

区间型：期望取值最好是落在某一个确定的区间内为最好。比如学校的生师比，自然中互为捕食关系的物种数量比。

其中M是极小型数据的右区间（最大值）。
在这里插入图片描述

其中m是极小型数据的左区间（最小值），M是极小型数据的右区间（最大值）。

在这里插入图片描述

2、数据指标的无量纲化处理

在实际数据指标x₁,x₂,···,x_m(m>1)之间，往往存在着不可公度性，直接应用是困难的，会出现“大数吃小数”的错误、从而导致结果的不合理。

常用方法：标准差法、极值差法、功效系数法等。
在这里插入图片描述

（1）标准差方法

在这里插入图片描述

（2）极值差方法（最常用）

在这里插入图片描述
##### （3）功效系数方法

无量纲化处理Matlab代码

以处理区间型指标为例，由：
在这里插入图片描述
给出无量纲化处理的Matlab代码：

% 数据预处理方法：线性归一化
% a为处理数据矩阵u为选择处理方法1为效益型2 为成本型3为区间型qujian为效益形中的最优属性区间rennai为忍耐上下限区间
function b=topsis(a,u,qujian,rennai)
    am1=min(a);am2=max(a);
    % 效益型数据处理（即数据越大越好）
    if u==1
        b=(a-am1)./(am2-am1);
    % 成本型数据处理（即数据越小越好）
    elseif u==2
        b=(am2-a)./(am2-am1);%区间型数据处理
    elseif u==3
        n=length(a);
        for k=1:n
            if a(k)>=rennai(1)&a(k)<qujian(1)
                b(k)=1-(qujian(1)-a(k))/(qujian(1)-rennai(1));
            elseif a(k)>=qujian(1)&a(k)<=qujian(2)
                b(k)=1;
            elseif a(k)>qujian(2)&a(k)<=rennai(2)
                b(k)=1-(a(k)-qujian(2))/(rennai(2)-qujian(2));
            else
                b(k)=0;
            end
        end
    end
end

先将这段代码写入新建脚本topsis.m保存，然后打开另一个空白脚本输入数据。

原数据：
在这里插入图片描述
输入：

A=[0.1 0.2 0.4 0.9 1.2;
5 6 7 10 2;
5000 6000 7000 10000 400;
4.7 5.6 6.7 2.3 1.8];
A=A';
a1=A(:,1);a2=A(:,2);a3=A(:,3);a4=A(:,4);
b1=topsis(a1,1);
b2=topsis(a2,3,[5,6],[2,12]);
b3=topsis(a3,2);
b4=topsis(a4,2);
[b1,b2',b3,b4]