数学建模冲刺篇（数据预处理）

张张同学！

已于 2022-08-15 19:13:28 修改

阅读量1.8w

点赞数 42

分类专栏：数学建模文章标签：数据分析大数据美赛美国大学生数学建模竞赛

于 2021-02-04 08:50:12 首次发布

本文链接：https://blog.csdn.net/qq_46126118/article/details/113623911

版权

数学建模专栏收录该内容

52 篇文章

订阅专栏

本文详细介绍数据预处理的四大步骤：数据清理（处理缺失值、异常值等）、数据集成、数据变换及数据规约。深入探讨每一步的具体操作方法及其应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据进行预处理，一般分为四个步骤： 数据清理、数据集成、数据变换、数据归约。

一、数据清理（缺失值、异常值、无关值、噪音、重复值）

1.缺失值

缺失值：1、删除：数量较少，对整体数据没什么影响的直接删除该条数据。2、对缺失数据插补：方法较多，例如用该属性的均值、众数、中位数插补，这些较为简单，不详述；最近邻插补，使用与缺失样本最接近的样本的该属性值插补；回归法（建模预测）：就是根据样本集的其他属性来建立一个拟合模型预测缺失属性的值，根据模型来计算缺失值。常用的缺失值处理方法就这些，还有许多其他的方法，如拉格朗日插值等等。

2.异常值

异常值：首先要知道如何找出某个属性的异常值。我一般用的方法是画箱型图，
下四分位数（Q1）=（数据个数+1）0.25
上四分位数（Q3）=（数据个数+1）0.75
盒子长度IQR = Q3-Q1
最小观测值（下边缘）=Q1 - 1.5IQR
最大观测值（上边缘）=Q3+ 1.5IQR
不在最小最大观测值范围内的视为异常值
处理异常值：1、直接删除，2、当作缺失值、用缺失值的处理方法；3、暂时保留。

3.无关值

无关值：像id这种无关的属性直接删掉即可，样本集中可能还有其它的无关属性，需要根据业务情况具体分析才行。

4.噪音

噪音：1、分箱：通过考察相邻数据来确定最终值。实际上就是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据（某列属性值）按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。分箱的方法一般有等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。数据平滑方法：按平均值平滑、按边界值平滑和按中值平滑。按平均值平滑：对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。按边界值平滑：用距离较小的边界值替代箱中每一数据。按中值平滑：取箱子的中值，用来替代箱子中的所有数据。
2、聚类：将物理的或抽象对象的集合分组为由类似的对象组成的多个类。找出并清除那些落在簇之外的值（孤立点），这些孤立点被视为噪声。
3、回归；试图发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数据，即通过建立数学模型来预测下一个数值，包括线性回归和非线性回归。

5.重复值

重复值：对于重复项的判断，基本思想是“排序与合并”，先将数据集中的记录按一定规则排序，然后通过比较邻近记录是否相似来检测记录是否重复。这里面其实包含了两个操作，一是排序，二是计算相似度。一般过程中主要是用duplicated方法进行判断，然后将重复的样本进行简单的删除处理。

二、数据集成

数据集成就是为了将不同数据源的数据整合导一个数据库中，需要注意的是集成过程中可能产生的问题：

属性（字段名）意义问题：即同一字段名所代表的含义不一样，例如’日期‘，可能一个数据源中表示生产日期，一个数据源表示’保质日期‘；
字段结构问题：即不同的字段名表示的是一样的数据；字段的数据类型不同；字段数据格式不同；字段单位不同等；
字段冗余问题：集成后的字段之间具有较强的相关性，可以相互推导出。（ps：相关性的计算可以用卡方检验或者协方差，皮尔逊相关系数等）

一般在集成前，可以先做个表将个数据源的字段名，类型等统计一下，再做处理。

三、数据变换和数据规约

个人觉得数据变换和数据规约其实等同于特征工程所要做的事，这里简单介绍下。
数据变换就是对数据做归一化，标准化等处理，例如不同的属性的值的量纲或者取值范围相差过大。
数据规约则是对减少过多的属性（维度、特征）对预测的模型的影响，常用方法：合并属性，主成成分分析（PCA），逐步向前（向后删除）、低方差特征过滤、one-hot编码等。