Spark MLlib 特征工程系列—特征选择VarianceThresholdSelector

Spark MLlib 特征工程系列—特征选择VarianceThresholdSelector

VarianceThresholdSelector 是 Spark MLlib 中的一种特征选择工具,基于方差进行特征选择。它的工作原理是通过设置一个方差的阈值,筛选出那些方差大于该阈值的特征。方差较小的特征通常对模型贡献较低,因为它们在不同样本之间变化不大,这些特征可能包含较少的信息或是噪声。因此,VarianceThresholdSelector 是一种简单但有效的特征选择方法,尤其适用于过滤掉低方差特征。

1. 原理

VarianceThresholdSelector 的核心思想是基于特征的方差进行选择。方差衡量的是特征在数据集中不同样本间的变化程度。方差越大,意味着该特征在数据集中变化较大,可能包含更多信息。反之,方差较小的特征通常对模型的预测能力影响较小,甚至可能引入噪声。

方差的计算公式如下:

[ σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 ] [ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 ] [σ2=N1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值