rfe查看选出的特征_特征预处理

最新推荐文章于 2024-03-20 11:20:29 发布

佚执

最新推荐文章于 2024-03-20 11:20:29 发布

阅读量1.2k

点赞数 1

文章标签： rfe查看选出的特征

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34776437/article/details/113316146

版权

本文介绍了特征工程中的四个步骤，重点讲解了特征处理，包括确定标注、特征选择和特征变换。特征选择通过过滤、包裹和嵌入思想，如RFE算法，来剔除不相关或冗余的特征。特征变换涉及对数值化、离散化、归一化等操作，以改善数据质量并适应不同算法需求。文中还提供了相关代码示例，展示了如何运用这些方法。

摘要由CSDN通过智能技术生成

特征工程一般包含四部分

特征使用
特征获取
特征处理
特征监控

本文主要介绍"特征处理"的方法

确定标注（或者标记、标签、label）
特征选择
特征变换（对值化、离散化、数据平滑、归一化、标准化、数值化、正则化）
特征降维
特征衍生

确定标注

针对监督学习，确定我们的目标标签、或者目标lable

特征选择

剔除与标注不相关或冗余的特征，减少特征的个数，缩小模型训练的时间。一定程度的减少过拟合，提高模型的精确度。

最终的目的：获得能训练出更好模型的数据。

依靠统计学方法、数据模型、机器学习方法，排序特征对标签影响程度，剔除影响程度小的特征，实现降维。

特征选择3个切入思路

过滤思想
包裹思想
嵌入思想

过滤思想

评价某个特征与标签相关性，如果与标签的相关性很小，就直接去掉。
如下特征与特征相关性表：我们的特也会落入连续型、离散型数据类型：

特征相关性过滤方法

包裹思想

特征选择包裹思想：最佳的特征组合是特征的子集(开始选择出几个较大的特征子集)。首先确定一个评价指标，比如准确率。找到准确率评价下，最佳的子集特征。再继续拆分这个子集，直到评价指标降低或低于阈值。

递归特征消除思想

包裹思想最经典的算法是RFE算法：递归式特征消除：Recursive feature elimination(RFE)：

分3步：

列出特征结合X: {x1,x2...xn}
构造简单模型进行训练，根据训练得到的系数，剔除较弱的特征
余下的特征重复这个过程，直到评价指标下降较大、或低于阈值，停止递归特征消除。

嵌入思想

嵌入的主体是特征，被嵌入的实体是一个简单的模型。也就是说，根据一个简单的模型来分析特征的重要性，最常见的是使用正则化的方式来做特征选择。

比如：

1. 我们有n个特征，通过一个回归模型对标注进行回归，得到一些w权重系数，对w权重系数进行正则化/正规化，转换为一个[0,1]之间的数，这也反应了特征的重要性，重要性小的特征可以剔除。

正则化化后，找到低权重的特征

比如正则化后提出w_2对应的特征

风险：

嵌入特征是有风险的，模型选择不当，可能会丢弃一些好的特征。所以模型要尽可能选择与最终做预测的模型关联性强的模型。比如：都是用线性模型、都用分布形式一致的，图形分布一致的函数等。

代码实现：

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
rfe查看选出的特征_特征预处理

特征工程一般包含四部分特征使用特征获取特征处理特征监控本文主要介绍"特征处理"的方法确定标注（或者标记、标签、label）特征选择特征变换（对值化、离散化、数据平滑、归一化、标准化、数值化、正则化）特征降维特征衍生确定标注针对监督学习，确定我们的目标标签、或者目标lable特征选择剔除与标注不相关或冗余的特征，减少特征的个数，缩小模型训练的时间。一定程度的减少过拟合，提高模型的精确度。最终的目...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。