机器学习特征选择、开发流程、数据集划分、转换器与估计器

最新推荐文章于 2023-03-14 09:58:54 发布

smalllllerr

最新推荐文章于 2023-03-14 09:58:54 发布

阅读量581

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/Tracy19970428/article/details/107490516

版权

机器学习特征选择、开发流程、数据集划分、转换器与估计器

机器学习特征工程

特征选择（降维）

特征选择的原因

冗余：部分特征的相关度高，容易消耗计算性能
噪声：部分特征对预测结果有负影响

特征选择的定义

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小。
不改变数值：直接筛选特征值
改变数值：PCA（主成分分析）

特征选择的三大方法

Filter(过滤式)：VarianceThreshold
Embedded(嵌入式)：正则化、决策树
Wrapper(包裹式)

过滤式：VarianceThreshold

API：sklearn.feature_selection.VarianceThreshold
类：VarianceThreshold(threshold = 0.0)
删除所有低方差特征
方法：Variance.fit_transform(X,y)
X:numpy array格式的数据[n_samples,n_features]
返回值：训练集差异低于threshold的特征将被删除。
默认值是保留所有非零方差特征，即删除所有样本
中具有相同值的特征。

def var():
    """
    特征选择-删除低方差的特征
    :return: None
    """
    var = VarianceThreshold(threshold=1.0)
    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
    print(data)
    return None

输出结果：

[[0]
 [4]
 [1]]

注：去除了相关性大的特征。

PCA（主成分分析）

PCA目的

是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。

PCA定义

PCA是一种分析、简化数据集的技术，可以削减回归分析或者聚类分析中特征的数量，解决高维度特征之间通常线性相关这一问题。

PCA代码实现

API：sklearn. decomposition
类：PCA(n_components=None)
将数据分解为较低维数空间
PCA.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值：转换后指定维度的array

def pca():
    """
    主成分分析进行特征降维
    :return: None
    """
    pca = PCA(n_components=0.9)
    data

最低0.47元/天解锁文章

smalllllerr

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习特征选择、开发流程、数据集划分、转换器与估计器

机器学习特征选择、开发流程、数据集划分、转换器与估计器机器学习特征工程特征选择（降维）特征选择的原因特征选择的定义特征选择的三大方法过滤式：VarianceThresholdPCA（主成分分析）PCA目的PCA定义PCA代码实现机器学习的开发流程机器学习整体开发流程机器学习模型工作流程机器学习算法分类机器学习数据集划分数据集划分代码实现转换器与估计器转换器估计器估计器工作流程机器学习特征工程特征选择（降维）特征选择的原因冗余：部分特征的相关度高，容易消耗计算性能噪声：部分特征对预测结果有负影响
复制链接

扫一扫