特征工程的方法和步骤

本文详细介绍了特征工程的各个方面,包括特征类别如类别、数值、时间和空间特征,自然语言处理和深度学习特征。数据预处理涉及无量纲化、归一化、One-hot编码和缺失值填充。特征选择方法涵盖Filter、Wrapper和Embedded法。特征降维利用正则化、PCA和LDA。最后讨论了特征衍生,如特征扩展和组合。整个过程旨在提升模型性能。
摘要由CSDN通过智能技术生成


数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

0.示意图

在这里插入图片描述
原图

1.特征类别

1.1.类别特征

  • one-hot encoding
  • hash encoding
  • label encoding
  • count encoding
  • label-count encoding
  • target encoding
  • category embedding
  • Nan encoding
  • polynomial encoding
  • expansion encoding
  • consolidation encoding

1.2.数值特征

  • rounding
  • binning
  • scaling
  • imputation
  • interactions
  • no linear encoding
  • row statistics

1.3.时间特征

1.4.空间特征

1.5.自然语言处理

1.6.深度学习/神经网络

1.7.图特征

1.7.Leakage

1.8.统计聚合

1.9.自动化特征工程

2.数据预处理

利用Sklearn的preprocessing库。

2.1.无量纲化方法

  • 标准化:转换成标准正态分布 x ′ = x − X ‾ S x'=\frac{x-{\overline X}}{S} x=SxX
from sklearn.preprocessing import StandardScaler
  • 区间缩放法:
    如: x ′ = x − m i n m a x − m i n x'=\frac{x-{min}}{max-min} x=maxminxmin
from sklearn.preprocessing import MinMaxScaler

2.2.归一化

依照特征矩阵的处理数据。
目的:将样本向量转化为单位向量。使样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准。

标准化是依照特征矩阵的处理数据,其通过z-score的方法,将样本的特征值转换到同一量纲下。

规则为L2的归一化公式如下:
x ′ = x ∑ j m x j 2 x'=\frac{x}{\sqrt {\sum_j^mx_j^2}} x

  • 2
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值