为什么要进行数据预处理
我们采集到的数据很有可能有很多错误的信息,同时需要对不同性质的信息进行比较,因此,在做数据分析之前,必须进行数据预处理。
1.Min-max标准化
min-max标准化方法是对原始数据进行线性变换。将A的一个原始数据映射到区间[0,1]中。
公式为:
new_resource=(resource-min)/(max-min)
matlab程序中:X_new=(X-min(X))/(max(X)-min(X))
2.z-score标准化
这种方法是基于原属数据的均值(mean)和标准差(std)进行数据的标准化。将A的原始值x使用z-score标准化到x‘。
此方法适用于属性A的最值未知或有超出取值范围的利离群数据的情况。
新数据=(原数据-均值)/标准差
matlab程序:X_new=zscore(X)
或X_new=(X-mean(X))/std(X)