数据变换主要是对数据进行规范化处理,达到适用于挖掘的目的。
简单的函数变换包括平方、开方、取对数查分运算等,可以将不具有正态分布的数据变换成具有正态分布的数据,对于时间序列分析,有时简单的对数变换和差分运算就可以将非平稳序列转换成平稳序列。
数据规范化
1、最大——最小规范化 :X *=(x-min)/(max-min)
映射到 [0,1] 之间,若数据集中且某个数值太大,则规范化后各值都接近0,且相差不大
2、零——均值规范化:X*=(x-mean)/ sigma
目前用的最多的数据标准化方法
3、小数定标规范化:X*=x /(10^k)
通过移动属性值的小数位数,映射到 [-1,1] 之间,移动的小数位数取决于属性值绝对值的最大值
1 #-*- coding: utf-8 -*- 2 #数据规范