数据的降维之特征选择

最新推荐文章于 2022-01-12 12:44:14 发布

Nothenhe

最新推荐文章于 2022-01-12 12:44:14 发布

阅读量477

点赞数 1

本文链接：https://blog.csdn.net/Nothenhe/article/details/104453037

版权

数据降维

维度：特征的数量
目的：

冗余：部分特征的相关度高，容易消耗计算性能
噪声：部分特征对预算结果有影响
数据降维的方式：1. 特征选择 2.主成分分析

特征选择是什么？
特征选择就是单纯的从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值，也可以不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中一部分特征

主要方法（三大武器）：

filter(过滤式)：VarlanceThreshold 指定方差大小范围进行筛选
Embedded(嵌入式):正则化，决策树
Wrapper(包裹式)【一般不使用】

sklearn特征选择API
其他特征选择方法

sklearn特征选择API（过滤式）

API：sklearn.feature_selection.varianceThreshold

varianceThreshold 语法

varianceThreshold(threshold=0.0)
删除所有低方差特征
variance.fit_transform(X)

X:numpy array格式的数据（n_samples,n_features）
返回值：训练集差异低于threshold的特征将被删除
默认值是保留所有非零方差特征，即删除所有样本
中具有相同值的特征

过滤式特征选择实现

from sklearn.feature_selection import VarianceThreshold
def var():
    """
    特征选择删除低方差的特征
    :return:
    """
    var = VarianceThreshold(threshold=1.0)  # 将方差小于等于1.0的特征删除。 默认threshold=0.0
    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
    print(data)
def main():
    var()
if __name__ == '__main__':
    main()



# 特征选择  VarianceThreshold删除低方差的特征(删除差别不大的特征)

运行结果：

数据降维第二种方式：主成分分析

API： sklearn.decomposition

PCA是什么：

本质：PCA是一种分析，简化数据集的技术
目的：是数据维数压缩，尽可能降低源数据的维数（复杂度），损失少量信息
作用：可以削减回归分析或者聚类分析中特征的数量

PCA语法

PCA(n_components=None)

将数据分解为较低纬度的空间
n_components=None可以是小数也可以是整数，当为小数时，一般在90%到95%之间，指特征数保留在原来所占的百分比，当为整数时指特征数在降维后的特征数量一般不常用

PCA.fit_transform(X)

X:numpy array格式的数据（n_samples,n_features）
返回值：转换后的指定维度的array

代码实现

from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA

def var():
    """
    特征选择删除低方差的特征
    :return:
    """
    var = VarianceThreshold(threshold=1.0)  # 将方差小于等于1.0的特征删除。 默认threshold=0.0
    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
    print(data)

def zcffx():
    """
    主成分分析进行特征降维
    :return:
    """
    pca=PCA(n_components=0.9)
    data=pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
    print(data)
    return None
def main():
    zcffx()
if __name__ == '__main__':
    main()



# 特征选择  VarianceThreshold删除低方差的特征(删除差别不大的特征)

运行结果：

Nothenhe

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据的降维之特征选择

数据降维维度：特征的数量目的：冗余：部分特征的相关度高，容易消耗计算性能噪声：部分特征对预算结果有影响数据降维的方式：1. 特征选择 2.主成分分析特征选择是什么？特征选择就是单纯的从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值，也可以不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中一部分特征主要方法（三大武器）：fi...
复制链接

扫一扫