特征工程的方法和步骤

最新推荐文章于 2024-07-12 15:37:04 发布

褚骏逸

最新推荐文章于 2024-07-12 15:37:04 发布

阅读量3.5k

点赞数 2

分类专栏： # deep_learning machine_learning python 文章标签：算法机器学习人工智能深度学习 python

本文链接：https://blog.csdn.net/weixin_41171061/article/details/106313088

版权

本文详细介绍了特征工程的各个方面，包括特征类别如类别、数值、时间和空间特征，自然语言处理和深度学习特征。数据预处理涉及无量纲化、归一化、One-hot编码和缺失值填充。特征选择方法涵盖Filter、Wrapper和Embedded法。特征降维利用正则化、PCA和LDA。最后讨论了特征衍生，如特征扩展和组合。整个过程旨在提升模型性能。

摘要由CSDN通过智能技术生成

0.示意图

在这里插入图片描述
原图

1.特征类别

1.1.类别特征

one-hot encoding
hash encoding
label encoding
count encoding
label-count encoding
target encoding
category embedding
Nan encoding
polynomial encoding
expansion encoding
consolidation encoding

1.2.数值特征

rounding
binning
scaling
imputation
interactions
no linear encoding
row statistics

1.3.时间特征

1.4.空间特征

1.5.自然语言处理

1.6.深度学习/神经网络

1.7.图特征

1.7.Leakage

1.8.统计聚合

1.9.自动化特征工程

2.数据预处理

利用Sklearn的preprocessing库。

2.1.无量纲化方法

标准化：转换成标准正态分布 $x'=\frac{x-{\overline X}}{S}$

from sklearn.preprocessing import StandardScaler

区间缩放法：
如： $x'=\frac{x-{min}}{max-min}$

from sklearn.preprocessing import MinMaxScaler

2.2.归一化

依照特征矩阵的行处理数据。
目的：将样本向量转化为单位向量。使样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准。

标准化是依照特征矩阵的列处理数据，其通过z-score的方法，将样本的特征值转换到同一量纲下。

规则为L2的归一化公式如下：
$x'=\frac{x}{\sqrt {\sum_j^mx_j^2}}$

最低0.47元/天解锁文章

褚骏逸

关注

2
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
特征工程的方法和步骤

目录0.示意图1.特征类别1.1.类别特征1.2.数值特征1.3.时间特征1.4.空间特征1.5.自然语言处理1.6.深度学习/神经网络1.7.图特征1.7.Leakage1.8.统计聚合1.9.自动化特征工程2.数据预处理2.1.无量纲化方法2.2.归一化2.3.定性特征One-hot/哑编码2.4.定量特征二值化2.5.缺失值填充2.6.数据变换3.特征选择3.1.Filter过滤法3.1.1.方差选择法3.1.2.相关系数法3.1.3.卡方检验3.1.4.互信息法3.2.Wrapper包装法3.2.1
复制链接

扫一扫

专栏目录