数据预处理 拉依达准则 matlab,数学建模数据预处理.doc

数据预处理

摘要

目前,大量研究工作都集中于数据挖掘算法的探讨,而忽略了对数据预处理的研究。事实上,数据预处理对数据挖掘十分重要,而且必不可少。要使数据挖掘出有效的知识,必须为其提供干净,准确,简洁的数据。然而,实际应用系统中收集到的数据通常是“脏”数据。因此,常常需要对数据进行预处理。

问题一,缺失数据的填补方法有多种,本文选取了平均值填补法、临近点均值填补法、线性插补法和期望值最大化法,并且结合SPSS软件对缺失值进行填补。将几种方法对缺失数据进行处理后的结果相互比较,得出结论:当数据缺失较多时,平均值填补法不够理想,无法体现出数据之间的客观规律。其填补结果歪曲了样本单位中变量的分布,使其分布状况收到有观测数据计算得到的组均值的制约。

问题二,研究工作需要良好的数据作为基础支撑,若一组数据中存在几个不符合规律的数据,将对分析结果产生不良影响。因此在进行研究之前,需要数据进行预处理,发现并剔除数据中所存在的异常数据。本文选取了拉依达准则对含有粗大误差的异常值进行剔除。

问题三,实际系统中一般会存在异常数据,直接用其来进行分析以及预测将影响结果的准确性,因此有必要对异常数据进行修正。本文选取了基于密度估计的异常数据识别与修正方法,同时考虑负荷的横向连续性和纵向连续性对异常数据进行辨识和修正。同时又运用线性插值法对异常数据进行修正。经比较,得出结论:线性插值法虽然效果一般,但是计算复杂度却较低。

关键字:预处理;平均值填补法;期望值最大化法;拉依达准则;密度估计;

1 问题的重述

利用2012年高教社杯全国大学生数学建模竞赛A题所提供数据进行以下处理:

对缺失数据进行填补;

鉴别并剔除异常数据;

对异常数据进行修正;

2 问题分析

2.1 数据预处理的必要性

实际系统中提供的数据一般会存在缺失现象或者异常数据的现象。缺失数据和异常数据将使数据间的客观规律造成偏差。而统计数据是研究工作开展的基础,若统计数据出现偏差,必然会影响研究工作。针对数据缺失的现象,有多种处理方法,如:删除法、平均值填补法、热卡填补法、期望值最大化法、多重填补法等,以上方法可在合适情况下发挥最大处理效应。而针对异常数据存在的现象,亦有多种处理方法,可对其进行删除,也可对其进行修正。任何数据的存在均有其价值,因此,对于异常数据的处理,较多采用修正的方法,保留其应有价值并且对其进行数据加工,还原数据真实性。

2.2 问题一的分析

缺失值是在许多研究进行数据采集时经常出现的问题,也是研究工作进行过程中不愿意见到的事情,又是无法避免的问题。对于数据的缺失存在量较少的情况,可直接进行删除。而存在较多缺失数据的时候,需要对其进行填补,使其尽可能反映出数据之间的客观规律,从而为研究工作的开展提供良好的基础。

2.3 问题二的分析

导致异常数据产生的原因有很多,如:采集数据人员的记录错误、被采访者的刻意隐瞒以及统计仪器的故障等等。诸如此等情况,均会使得真实数据之间的客观规律发生偏离。而研究工作需要利用数据之间的客观规律对实际系统进行分析总结,为减少与真实情况的偏离程度,可对异常数据进行鉴别以及删除。

2.4 问题三的分析

虽然异常数据的存在会导致数据之间的客观规律偏离真实情况,但是任何统计数据均有其存在的价值。在不删除异常数据,并且又使异常数据尽量减少对真实情况的影响时,需对异常数据进行修正。这样可以在保留其存在价值的前提下,又使其尽可能贴近实际。

3 符号约定

此处仅对部分将参与实际运算的符号进行说明,另外一部分符号在各问题求解模块中进行说明,此处不做赘述:

是指第d行第t列的数据;

为第d-m第t行的数据;

为权值系数;

为 光滑系数

4 模型的假设

(1)假设各评酒员都是公平公正得对每个酒样品进行评价的。

(2)假设两组评委组之间的区别是该问题中的唯一变化因素。

部分模型假设将在各问题模型建立与分析模块中提及,在此处不进行赘述。

5 问题一模型的建立与分析

5.1 数据缺失的概念、类型以及原因

Step01:数据缺失的概念

数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。

Step02:数据缺失的类型

数据缺失的类型包括:1.完全随机缺失(Missing Completely at Random,MCAR ):数据的缺失与不完全变量以及完全变量都是无关的;2.随机缺失(Missing Not At Random,MAR):数据的缺失不是完全随机的,数据的缺失只依赖于完全变量;3. 完全非随机缺失(Missing Not At Random,MNAR):数据的缺失

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值