1、数据规范化
1)离差标准化--消除量纲
x1=(x-min)/(max-min))
2) 标准差标准化
x1=(x-平均值)/标准差
2、离散化
a=train['month_traffic'].T
b=pd.cut(a.values,100,labels=range(100)) #第二个参数是划分的份数,也可以是不等距划分,[0,50,90,120,140]划分成了不等距的4份
train['month_traffic']=b.T
3、属性构造
4、属性规约和数值规约
主成分分析法:
from sklearn.decomposition import PCA
data=pd.read_csv('a.csv)
pca1=PCA()
pca1.fit(data)
charc=pca1.coponents_ #返回模型中的各个特征量
rate=pca1.explained_variance_ratio_ #各个成分中各自方差百分比,贡献率
pca2=PCA(2) #降成2维
pca2.fit(data)
redc=pca2.transform(data) #降维
charc=pca2.components_
recv=pca2.inverse_transform(redc) #恢复原来的维数