数据降维

数据降维通过特征选择和主成分分析实现,如sklearn的VarianceThreshold和PCA。算法分类中,决策树是常见模型,具有优缺点,如朴素贝叶斯在文档分类中有应用。数据处理涉及特征工程、数据集划分,如train_test_split。转换器和估计器在机器学习流程中起关键作用,如fit_transform()和fit()。
摘要由CSDN通过智能技术生成

数据降维:
指的是降低特征的数量
数据降维的2种方式:
1.特征选择
2.主成分分析

1.特征选择
特征选择的原因:
冗余:部分特征相关度高,容易消耗计算性能。
噪声:部分特征对预测结果有影响
sklearnt二证选择API

特征选择主要方法(三大武器):
Filter(过滤式):varlanceThreshold # Varlance:方差
Embedded(嵌入式):正则化,决策树
Wrapper(包裹式)

Filter:

考虑所有样本这个特征的数据情况,过滤方差比较小的特征。他的意义其实就是特征选择。特征选择的API:sklearn.feature_selection.VarianceThreshold
在这里插入图片描述
在这里插入图片描述

sklearn的主成分分析:
PCA:分析简化数据集的技术
pca的目的:是数据位数压缩,尽可能降低原数据的维数,损失少量信息
pca的作用:可以削减回归分析或者据类分析的特征的数量
应用场景:当特征数量达到上百的时候。
API:sklearn.decomposition
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
n_components:小数形式,范围是0-1,置顶损失量保留多少保留百分之90和保留百分之50是不一样的,一般使用90%-95%。
整数:减少到的特征数量。一般不使用整数,因为我们也不知道减小到多少

#特征选择与主成分分析的比较:
当特征数上百&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值