特征工程/数据预处理超全面总结（持续更新ing...）

诸神缄默不语

已于 2024-04-07 21:00:48 修改

阅读量1.3k

点赞数

分类专栏：人工智能学习笔记文章标签： sklearn 人工智能特征工程数据预处理

于 2022-12-01 14:24:08 首次发布

本文链接：https://blog.csdn.net/PolarisRisingWar/article/details/117253174

版权

人工智能学习笔记专栏收录该内容

242 篇文章 255 订阅

订阅专栏

诸神缄默不语-个人CSDN博文目录

本文比较适宜于那种结构化数据的传统机器学习。但是深度学习的话，那也有很大概率会用到特征工程。因此在此做出总结，以资借鉴。
本文仅考虑结构化数据，不对使用图像、文本等非结构化数据进行表征、特征提取的工作进行介绍。
特征工程是玄学。本文仅作收集及按照本人理解做出讲解，具体的丹能不能炼出来还是要靠命。

0. 通用内容

观察数据类型→检查数据分布

一个通用baseline代码：https://github.com/yzkang/My-Data-Competition-Experience/blob/master/general_baseline.py
（以后我也要写个我自己的）

一个用ChatGPT的解决方案：Harnessing ChatGPT for Automated Data Cleaning and Preprocessing - KDnuggets
感觉有点臃肿，毕竟很多代码如果你自己差不多就会写的话其实也不需要用ChatGPT倒来倒去的，而且ChatGPT还有幻觉问题……但是也可供参考，以后可以将LLM助手嵌入到编程过程中嘛。

1. 特征选择

在这里插入图片描述

相关系数：分类变量-数值变量用斯皮尔曼系数，数值变量-数值变量用皮尔森系数
示例代码：
```
s_ce=y.corr(x,method='spearman')  #spearman coefficient
p_ce=y.corr(x)  #pearson coefficient
```

SelectKBest
示例代码：

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression
K=20
bestfeatures = SelectKBest(score_func=f_regression, k=K)
bestfeatures.fit(x,y)
selected_feature_columns=list(bestfeatures.get_support(True))

基尼系数
信息增益
stepwise

2. 数值型特征处理

1. 无量纲化/归一化/正则化

（这部分内容我在小红书上更新过一个更简单的初版：深度学习中的trick | 常见归一化维度和方法）

归一化的维度：

列归一化：传统机器学习常采用，为防止某些特征的量级远高于其他特征
行归一化：GNN中常用（从GCN到APPNP官方实现代码都会有），抹平在预测过程中节点之间特征值大小的量差（因为GNN是非欧数据，需要做MP，所以会有这个影响需要抹除，其他IID的任务这样做感觉一般不会产生什么影响的）
参数需要训练的归一化神经网络：Batch normalization（对batch的每一维特征进行归一化） VS. Layer normalization¹（对时序数据每一个时间步的特征进行归一化）：Z-Score归一化

归一化的方法：

最大最小归一化 MinMaxScalar
Z-Score归一化 StandardScalar
LP归一化：将特征等比例缩放到总和为特征向量的LP模长。可参考函数torch.nn.functional.normalize的实现
1. GNN中常用的做法（L1归一化）：将特征（或者减去最小值后的特征）等比例缩放到总和为1。可以保留原数据中的稀疏性（可以参考PyG实现NormalizeFeatures类的实现，或者我的GitHub项目PolarisRisingWar/rgb-experiment的实现）
2. L2归一化
  1. sklearn.preprocessing.Normalizer的实现
  2. lambda x:x / (torch.max(torch.norm(x, dim=1, keepdim=True), epsilon))（参考自HGB/GNN.py at master · THUDM/HGB，此处设置的epsilons是1e-12）
  3. tf.math.l2_normalize的实现
MaxAbs
PCA whitening

由于图数据的特殊性，对图特征的归一化工作有更复杂的解释，以下是代码实践实例和来自各方的原因解释：

PPNP项目
PTA项目
Is code in utils line 117-line 120 real? · Issue #1 · DongHande/PT_propagation_then_training：我问了一下为什么要做归一化，作者给出的解释是从GCN开始大家一以贯之
GCN项目：反正他们也有
来自实验室学长：
一般做归一化就是均值方差或最大最小，但图数据因为很稀疏、又想归一化又想要保持0值，所以就会用这种方式来归一化。比如Cora数据集（one-hot有很多0）如果做了均值方差就会有很多不是0的就会出现过拟合，使效果变差

在实践上，有的数据集感觉做了行归一化之后效果确实会变好，但是大部分数据集在大部分模型上效果反而更差了呢……
感觉在具体的实验中，可以尝试行归一化/列归一化/不归一化三种操作，视最后对本项目最有益的结果而定。
我自己的实现可以参考我之前写的集成代码：https://github.com/PolarisRisingWar/rgb-experiment/blob/master/rgb_experiment/itexperiments.py#L261

图邻接矩阵的归一化不是这么回事，可参考我写的这篇博文：GNN邻接矩阵归一化