1.数据预处理
- 数据预处理是指在主要的处理以前对数据进行的一些处理,以保证数据质量能满足数据挖掘的任务。
- 数据质量:为什么要对数据预处理?
- 数据预处理的形式
- 数据处理的主要任务
2 数据质量:为什么要对数据预处理
-
2.1 数据质量的因素
在实际的数据挖掘任务中,数据质量决定了数据挖掘任务的成与败,而数据质量涉及许多因素,主要包括:
1.准确性、完整性和一致性;
2.时效性:反应了数据的更新程度;
3.可信性:反映有多少数据是用户信赖的;
4.可解释性:反映了数据是否容易理解; -
2.2 数据预处理的原因
现实世界中的数据是“脏的”——数据多了,什么问题都会出现。
1.噪声数据(不正确)的成因(数据输入时和传输时)
2.不完整数据的成因(数据收集的时候就缺乏合适的值)
3.数据不一致的成因(不同的数据源)
可以说没有高质量的数据,就没有高质量的挖掘结果。
数据预处理将是构建数据仓库或者进行数据挖掘的工作中占工作量最大的一个步骤。
3 数据预处理的形式
-
3.1 数据审核
1.准确性审核。主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。
2.适用性审核。主要是根据数据的用途,检查数据解释说明问题的程度。
3.及时性审核。主要是检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因
4.一致性审核。主要是检查数据在不同地区或国家、在不同的时间段是否具有可比性 -
3.2 数据筛选
对审核过程中发现的错误应尽可能予以纠正,数据筛选包括两方面的内容
1.将某些不符合要求的数据或有明显错误地数据予以剔除;
2.将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。 -
3.3 数据排序
数据排序是按照一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。
1.排序有助于对数据检查纠错,为重新归类或分组等提供依据。在某些场合, 排序本身就是分析的目的之一;
2.排序可借助于计算机很容易的完成;
4 数据预处理的基本任务
- 4.1 数据预处理的基本步骤
- 4.2 数据清洗
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
- 4.3 数据集成
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
- 4.4 数据归约
假定在公司的数据仓库选择了数据,用于分析。这样数据集将非常大。在海量数据上进行复杂的数据分析扣挖掘将需要很长时间,使得这种分析不现实或不可行,而数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。
1.数据归约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。
2.完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容。
数据归约技术可以用来得到数据集的归约表示,它虽然小,但仍大致保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。 - 4.5 数据变换
数据变换指的是在对数据进行统计分析时,要求数据必须满足一定的条件,如在方差分析时,要求试验误差具有独立性、无偏性、方差齐性和正态性等。
1.独立性和无偏性比较容易满足;
2.方差齐次性大多数情况容易满足;
3.正态性有的时候不能满足;
5 总结
- 数据预处理基本概念
数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理,以保证数据质量能满足数据挖掘的任务。 - 数据预处理的主要内容
数据质量:为什么要对数据预处理?
数据预处理的形式;
数据处理的主要任务;
总之,现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的准确率和效率。