python方差特征选择_Python特征选择--方差特征选择(Removing features with low variance)...

最近在看Python中机器学习之特征选择,为了避免遗忘,特记一波。

Removing features with low variance,即低方差过滤特征选择。其原理也是比较简单,计算样本中每一个特征值所对应的方差,如果低于阈值,则进行过滤(剔除)。默认情况下,将会剔除所有零方差特征,方差为0表示样本的特征取值没发生变化。

假设我们有一个特征是由0和1组成的数据集,利用Removing features with low variance方法移除那些在整个数据集中特征值为0或者为1的比例超过p(同一类样本所占的比例)的特征。0 1 组成的数据集满足伯努利( Bernoulli )分布,因此其特征变量的方差为:p(1-p)。

在Removing features with low variance方法中,将剔除方差低于p(1-p)的特征。在Pyhon的sklearn模块中,具有该方法的实现,具体使用如下。

from sklearn.feature_selection import VarianceThreshold #导入python的相关模块

X=[[0,0,1],[0,1,0],[1,0,0],[0,1,1],[0,1,0],[0,1,1]]#其中包含6个样本,每个样本包含3个特征。

sel=VarianceThreshold(threshold=(0.8*(1-0.8)))#表示剔除特征的方差大于阈值的特征Removing features with low variance

sel.fit_transform(X)#返回的结果为选择的特征矩阵

print(sel.fit_transform(X))#

输出结果为:

发现剔除的是第一个特征,保留的是后2个特征。从第一列特征可以看出。1的个数为1个,0为5个,0的比例为5/6,超过了0.8,且5/36<4/25(阈值).因此将此特征剔除,形成新的特征矩阵。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值