数据的特征工程入门详细教程(二)：特征选择与降维

最新推荐文章于 2023-03-14 13:45:39 发布

qq_40697046

最新推荐文章于 2023-03-14 13:45:39 发布

阅读量390

点赞数 1

文章标签： python sklearn 机器学习数据挖掘数据分析

本文链接：https://blog.csdn.net/qq_40697046/article/details/121386723

版权

本文详细介绍了特征选择和降维在数据预处理中的重要作用，包括特征选择的原因，如冗余和噪声问题，以及Filter、Embedded、Wrapper等方法。通过sklearn库展示了特征选择API的使用，并探讨了PCA的原理、目的和在高维度数据中的问题。此外，还提供了一个PCA降维的实例，最后对比了特征选择和降维的区别。

摘要由CSDN通过智能技术生成

文章目录

关于数据特征的简介数据特征的抽取及处理可见文章：
数据的特征工程入门详细教程(一)：简介数据特征的抽取及处理

特征选择

特征选择原因
1. 冗余：部分特征的相关度高，容易消耗计算性能
2. 噪声：部分特征对预测结果有负影响

特征选择是什么

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。
主要方法：
1. Filter(过滤式): VarianceThreshold
2. Embedded(嵌入式)：正则化、决策树
3. Wrapper(包裹式)

sklearn 特征选择API

sklearn.feature_selection.VarianceThreshold

语法

VarianceThreshold(threshold = 0.0)
	# 删除所有低方差特征
	
	Variance.fit_transform(X,y)       
		# X:numpy array格式的数据[n_samples,n_features]
		# 返回值：训练集差异低于threshold的特征将被删除。
		# 默认值是保留所有非零方差特征，即删除所有样本
		# 中具有相同值的特征。

示例：

from sklearn.preprocessing import MinMaxScaler, StandardScaler
def stand():
    """
    标准化缩放
    :return:
    """
    std = StandardScaler()

    data = std.fit_transform([[ 1., -1., 3.],[ 2

最低0.47元/天解锁文章

qq_40697046

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据的特征工程入门详细教程(二)：特征选择与降维

文章目录特征选择特征选择是什么sklearn 特征选择API其他特征选择方法sklearn降维APIPCA是什么高维度数据容易出现的问题PCA语法实例探究用户对物品类别的喜好细分降维特征选择与降维的比较？关于数据特征的简介数据特征的抽取及处理可见文章：数据的特征工程入门详细教程(一)：简介数据特征的抽取及处理特征选择特征选择原因冗余：部分特征的相关度高，容易消耗计算性能噪声：部分特征对预测结果有负影响特征选择是什么特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练
复制链接

扫一扫