机器学习基础——特征预处理及降维(笔记二)

一、特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

包含内容:

数值型数据的无量纲化:

    1. 归一化
    2. 标准化

特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其他的特征。

使用无量纲化使不同规格的数据转换到同一规格

API:sklearn.preprocessing

归一化:

       定义:通过把原始数据进行变换把数据映射到(默认为[0,1])之间

公式:

                                                                

作用于每一列,max为一列的最大值,min为一列的最小值,那么X’’为最终的结果,mx和mi为之指定区间默认值mx为1,mi为0

API:sklearn.preprocession.MinMaxScaler(feature_range=(0,1)…)

       MinMaxScalar.fit_transform(X)

              X:numpy array格式的数据[n_samples,n_features]

       返回值:转换后的形状相同的array

缺陷:受异常值影响大,鲁棒性较差

标准化:

       定义:通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

公式:

                                                     

作用于每一列,mean为平均值,σ 为标准差

API:sklearn.preprocessing.StandardScaler()

       处理之后,对每列来说,所有数据都聚集在均值为0附近,标准差为1

       StandardScaler.fit_transform(X)

       X:numpy array格式的数据[n_samples,n_features]

       返回值:转换之后的形状相同的array

二、特征降维

降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

降维的俩种方式:

  1. 特征选择
  2. 主成分分析

特征选择:

定义:数据中包含冗余或相关变量(或特征、属性),旨在从原有特征中找出主要特征。

方法

       Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联

      1. 方差选择法:低方差特征过滤
      2. 相关系数:特征与特征之间的相关程度

       Embedded(嵌入式):算法自动选择特征(特征与目标之间的关联)

      1. 决策树:信息熵
      2. 正则化:L1,L2
      3. 深度学习:卷积等

Sklearn.feature_selection

过滤式:

低方差特征过滤:

       特征方差小:某个特征大多样本的值比较相近

       特征方差大:某个特征很多样本的值都有差别

API:sklearn.feature_selection.VarianceThreshold(threshold=0.0)

       删除所有低方差特征

       Variance.fit_transform(X)

       X:numpy array格式的数据[n_samples,n_features]

       返回值:训练集差异低于thresholdd 的特征将被删除。默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。

相关系数:

皮尔逊相关系数(Pearson Correlation Coefficient)

反映变量之间相关关系密切程度的统计指标。

公式:

                                                                    

特点:

相关系数的值介于-1与+1之间,-1<=r<=1

当r>0时,表示俩变量正相关,r<0时,俩变量为负相关

当|r|=1时,表示俩变量为完全相关,当r=0时,表示俩变量间无相关关系

当0<|r|<1时,表示俩变量存在一定程度的相关,且|r|越接近1,俩变量间线性关系越密切;|r|越接近于0,表示俩变量的线性相关较弱

一般可分为三级划分:|r|<0.4为低度相关;0.4<=|r|<0.7为显著相关;

0.7<=|r|,1为高度线性相关

API:from scipy.stats import pearsonr

       X:(N,)array_like

       Y:(N,)array_like Returns:(Pearson’s correlation coefficient,p-value)

主成分分析(PCA):

定义:高维数据转化为地维数据的过程,在此过程中可能会有舍弃原有数据、创造新的变量

作用:是数据维数压缩,尽可能降低元数据的维数(复杂度)损失少量信息。

应用:回归分析或聚类分析

API:sklearn.decomposition.PCA(n_components=None)

       将数据分解为较低维数空间

       N_components:         

              小数:表示保留百分之多少的信息

              整数:减少到多少特征

       PCA.fit_transform(X) X:numpy array格式的数据    [n_samples,n_features]

       返回值:转换后指定维度的array

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值