【Python】特征选择方法

​​​​​​特征选择作用:

1. 减少特征数量、降维,加强模型的泛化能力,减少过拟合

2. 增强对特征和特征值之间的理解

特征选择方法:

Pearson相关系数——单变量选择

该方法衡量变量之间的线性相关性,取值范围为【-1,1】、

-1表示完全负相关;0表示完全没有线性关系;+1表示完全正相关。

优点:速度快,易于计算

缺点:只能衡量线性相关性

Python代码:使用scipy.stats的 pearsonr函数:

import numpy as np
from scipy.stats import pearsonr

np.random.seed(0)
size = 300
x = np.random.normal(0, 1, size)
y = x + np.random.normal(0, 1, size)
print("Pearsonr", pearsonr(x, y))

随机森林回归——单变量选择

思路:直接使用机器学习算法针对每个单独的特征和因变量建立预测模型。

Python代码:

import numpy as np
from sklearn.model_selection import KFold,cross_val_score,ShuffleSplit
from sklearn.datasets import load_boston
from sklearn.ensemble import RandomForestRegressor

#Load boston housing dataset as an example
bost
  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Python特征选择作为数据预处理的重要环节之一,通过对数据进行筛选和提取,将重要的特征筛选出来,提高分析模型的效率和准确度。Python本身提供了多种有用的特征选择技术,包括基于嵌入式特征选择、过滤式特征选择、Wrapper特征选择等。 其中,基于嵌入式特征选择是指直接将特征选择与模型的训练过程融合在一起,例如在决策树或支持向量机中,通过设置正则化项或损失函数的权重参数来进行特征选择。此方法的优点是可以直接针对模型进行特征选择而不影响训练过程,提高了模型的整体性能。 另一方面,过滤式特征选择是指利用一些统计分析方法来筛选出重要的特征,例如基于卡方检验、方差分析和相关系数等统计指标,在分析算法输入数据之前,先对数据进行特征选择。该方法的优点是可以高效筛选出重要的特征,并提升分析算法的性能。 最后,Wrapper特征选择是在特征选择与模型训练之间不断切换的一种方法,通过将特征的子集传入模型,利用模型的指标来评估特征的质量,并逐步剔除不重要的特征。这种方法的优点是能够充分利用模型的性能指标,精细地进行特征选择,提供了更好的特征选择结果。 总之,Python特征选择在数据分析中有着广泛的应用,为用户提供许多优秀的特征筛选算法,根据不同的需求和实际情况选择不同的特征选择算法,可以提高分析算法的效率和准确度,为用户提供更加精准的数据分析结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

allein_STR

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值