数据预处理是数据挖掘领域必不可少的前提工作。经过预处理的功数据才更加有质量,更好地适应数据挖掘的算法过程、减少运算量或优化运算过程,在某些时候甚至起到决定结果好坏的作用。
我们讨论如下几个主题:
粗略地说,我们要探讨的问题分类:对数据的分析和对数据属性的创建/修改。
有些比较简单、顾名思义的工作,就不再多赘述了。
一、聚集
聚集就是积少成多,把两个及以上的对象合并为单个对象。
有时候我们要考虑的对象很多,比如一个超市中顾客的数据,除了买了什么商品,还有商品的日期、价格、税费、时间点、日期、季节时令等等,此时我们要考虑的就是如何合并所有记录的每个属性的值。定量属性(如价格)通常使用求和、求平均等方法进行聚集;定性属性可以忽略或汇总来处理。
聚集的动机有多种:1、较小的数据集,占据较小的内存,而可以使用开销更大的算法;2、通过高层(高级别)的数据,可以起到范围或标度的转换作用;3、对象或属性群的行为通常比单个对象或单个属性的行为更加稳定(比如平均数、总数等指标往往具有较小的变异性)。
二、抽样
抽样是一种选择数据的子集进行分析的常用方法。
抽样方法: