特征工程

最新推荐文章于 2024-07-12 15:37:04 发布

Jarry_Liao

最新推荐文章于 2024-07-12 15:37:04 发布

阅读量118

点赞数

分类专栏：数据挖掘学习

本文链接：https://blog.csdn.net/Jarry_Liao/article/details/105150675

版权

2 篇文章 0 订阅

订阅专栏

特征工程是指将数据转换为能更好地表示潜在问题地特征，从而提高机器学习性能的一类方法。其步骤大致可分为数据理解、数据清洗、特征构造、特征选择，以及类别极端不平衡时的处理。

数据理解阶段的目的是探索数据，了解数据，主要在EDA阶段完成。

进行数据清洗的目的是为了提高数据质量，降低算法用错误数据建模的风险。其中包括特征变换、缺失值处理、异常值处理等几个主要步骤。

特征变换：主要变换那些模型无法处理或不适合处理的特征。变换方法有定性变量编码（Label Encoder、Onehot Encoder、Distribution Encoder等）及 标准化和归一化方法（z分数标准化、min-max归一化）
缺失值处理：缺失值会增加不确定性，可能会导致不可靠的输出。在少量样本缺失时，可不进行处理；在大量样本缺失时，可将该特征删除。也可对缺失值进行补全操作（均值/中位数/众数补全、高维映射（如onehot下补全为各位皆为0的一组向量）、模型预测、最邻近补全等）
异常值处理：处理异常值可以采用简单统计（如describe()的统计描述、散点图等）、正态分布的3σ法则、箱型图删除、截断、利用模型进行离群点检测（聚类、K近邻等）
还有如删除无效列、更改dtype、删除列中的字符串、将时间戳从字符串转换为日期格式等处理。

特征构造主要是为了增强数据的表达，以及添加先验知识以提高模型能力。

类别极端不平衡指的是数据集中某个特征中来自不同类别的样本数目相差悬殊的情况。可用下列方法进行处理：

关注