数据特征选择

最新推荐文章于 2023-10-29 15:48:05 发布

想要快乐的小张

最新推荐文章于 2023-10-29 15:48:05 发布

阅读量1.6k

点赞数

分类专栏：机器学习文章标签：机器学习数据分析

本文链接：https://blog.csdn.net/m0_46480988/article/details/118572032

版权

机器学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

机器学习基础（二）

数据特征选择
- VarianceThreshold（方差选择法）
- PCA（主成分分析）

数据特征选择

在机器学习中，数据的特征变量经常会出现无效或者是特征变量过多的情况。所以我们需要对数据特征进行选择，从所有的数据特征中选取部分的数据特征进行分析建模。

特征选择的方法主要有三种：过滤式、嵌入式和包裹式。
过滤式：对数据特征直接进行选择。
嵌入式：将特征选择和模型训练融为一体，一起进行。
包裹式*：将最后使用的模型性能作为特征子集的评价准则。

本文仅介绍过滤式的特征选择方式

VarianceThreshold（方差选择法）

VarianceThreshold是对数据的方差进行计算，然后将方差较小的特征或者是方差为0的特征进行剔除。方差过小，说明了数据间的差异很小，所以对于模型整体的训练而言是没有太大的信息价值的，所以可以剔除。衡量方差大小是没有唯一的标准，主要要根据数据的情况来选择例如量级大小。

代码如下：

from sklearn.feature_selection import VarianceThreshold
var = VarianceThreshold(threshold=1.0)
#threshold指定衡量方差大小，即将方差小于1的数据进行剔除
data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
print(data)
#[[0],[4],[1]]

PCA（主成分分析）

PCA是一种分析、简化数据集的技术。该方法可以对数据进行压缩，降低原来数据的维度，但同时最大程度地保留数据的信息。PCA要求数据特征之间线性相关，也就是说数据之间存在多重共线性。一般要求保留大于85%的原有数据信息，而且原数据的维度要尽可能的大，数据的长度必须大于特征的维度的，特征维度最好大于100，这样降维的效果比较明显。

代码如下

from sklearn.decomposition import PCA
pca = PCA(n_components=0.9)
#n_components指顶保留原有数据的特征大小，当数值为整数时也是指定降至指定的维度
data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
print(data)

想要快乐的小张

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据特征选择

机器学习基础（二）数据特征选择VarianceThreshold（方差选择法）PCA（主成分分析）数据特征选择在机器学习中，数据的特征变量经常会出现无效或者是特征变量过多的情况。所以我们需要对数据特征进行选择，从所有的数据特征中选取部分的数据特征进行分析建模。特征选择的方法主要有三种：过滤式、嵌入式和包裹式。过滤式：对数据特征直接进行选择。嵌入式：将特征选择和模型训练融为一体，一起进行。包裹式*：将最后使用的模型性能作为特征子集的评价准则。本文仅介绍过滤式的特征选择方式VarianceThr
复制链接

扫一扫