python数据分析
总结一下近期了解到的数据分析预处理的方法。
1、均值移除
统一样本矩阵中不同特征的基准值和分散度,将各个特征的平均值调整为0,标准差调整为1。
例如某矩阵的一列值分别是a,b,c,m表示均值,s表示标准差,均值移除后的对应数据是 (a-m)/s,(b-m)/s,(c-m)/s。
使用情况:某样本有些特征的数值比较大,而有的特征的数值比较小,在分析时大的数值可能会覆盖小的数值,就可以使用均值移除来解决。
在python中方法:sklearn.preprocessing.scale(原始样本矩阵) -> 均值移除后的样本矩阵
示例:
-
import numpy as np
-
import sklearn.preprocessing as sp
-
raw_samples = np.array([
-
[3, 20, 200, -5400],
-
[0, 40, -100, 2100],
-
[1, 30, 190, -4300]
-
], dtype='float')
-
std_sample = sp.scale(raw_samples)
-
</print(std_sample)