数据分析与挖掘--数据转换

1、数据规范化

     1)离差标准化--消除量纲

         x1=(x-min)/(max-min))

    2) 标准差标准化

        x1=(x-平均值)/标准差

2、离散化

a=train['month_traffic'].T
b=pd.cut(a.values,100,labels=range(100))  #第二个参数是划分的份数,也可以是不等距划分,[0,50,90,120,140]划分成了不等距的4份
train['month_traffic']=b.T

3、属性构造

4、属性规约和数值规约

     主成分分析法:

       from sklearn.decomposition import PCA

      data=pd.read_csv('a.csv)

       pca1=PCA()

       pca1.fit(data)

       charc=pca1.coponents_     #返回模型中的各个特征量

       rate=pca1.explained_variance_ratio_     #各个成分中各自方差百分比,贡献率

       pca2=PCA(2)    #降成2维

       pca2.fit(data)

       redc=pca2.transform(data)    #降维

       charc=pca2.components_ 

       recv=pca2.inverse_transform(redc)       #恢复原来的维数

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值