方差小,就意味某个特征大多样本的值比较相近;方差大,就意味着某个特征大多样本的值都有差别。
方差选择法也叫「低方差过滤」,顾名思义,就是设定一个方差的值,所有低于这个方差的特征都会被删掉。
二、方差选择API
sklearn.feature_selection 是特征选择的API
sklearn.feature_selection.VarianceThreshold( threshold=0 )
- VarianceThreshold.fit_transform( data ):接收字典类型的原始数据,返回方差过滤后的数字特征
- VarianceThreshold.inverse_transform( data ):将过滤后的数字特征,转回原始数据
- VarianceThreshold.get_feature_names_out():返回特征名字
- VarianceThreshold.variances_:返回每个特征对应的方差值
三、获取数据集
这里我们使用鸢尾花数据集来做示例
from sklearn import datasets
# 初始化鸢尾花数据集
iris = datasets.load_iris()
# 打印数据特征
print(iris.data)
# 打印特征数总结
print(iris.data.shape)
输出:
[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
......
[5.9 3. 5.1 1.8]]
(150, 4)
从输出结果可以看到,数据集现在有150条数据,每条数据有4个特征。