Task 3 特征工程

最新推荐文章于 2021-04-28 22:53:17 发布

qq_42281101

最新推荐文章于 2021-04-28 22:53:17 发布

阅读量117

点赞数

分类专栏：打卡学习

本文链接：https://blog.csdn.net/qq_42281101/article/details/105139417

版权

打卡学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

特征工程

1. 概述

特征工程是数据挖掘中至关重要的一环，其主要目的在于 将数据转换为能更好地表示潜在问题的特征，从而提高机器学习的性能。 例如，异常值处理是为了去除噪声，填补缺失值可以加入先验知识等。

特征构造也属于特征工程的一部分，其目的是为了 增强数据的表达。

有些数据特征是匿名特征，这导致我们并不清楚特征相互直接的关联性，这时我们就只有单纯基于特征进行处理，比如装箱，groupby，agg 等这样一些操作进行一些特征统计，此外还可以对特征进行进一步的 log，exp 等变换，或者对多个特征进行四则运算（例如计算出二手车的使用时长），多项式组合等然后进行筛选。由于特性的匿名性其实限制了很多对于特征的处理。有时利用神经网络去提取一些特征也会达到意想不到的良好效果。

对于知道特征含义的特征工程，特别是在工业背景的比赛中，会基于信号处理，频域提取，丰度，偏度等构建更为有实际意义的特征，这就是结合背景的特征构建，在推荐系统中也是这样的，各种类型点击率统计，各时段统计，加用户属性的统计等等，这样一种特征构建往往要深入分析背后的业务逻辑或者说物理原理。

2. 思维导图

在这里插入图片描述

3. 具体步骤

常见的特征工程包括：

异常处理：
通过箱线图（或 3-Sigma）分析删除异常值；
BOX-COX 转换（处理有偏分布）；
长尾截断；
特征归一化/标准化：
标准化（转换为标准正态分布）；
归一化（抓换到 [0,1] 区间）；
针对幂律分布，可以采用公式；
数据分桶：
等频分桶；
等距分桶；
Best-KS 分桶（类似利用基尼指数进行二分类）；
卡方分桶；
缺失值处理：
不处理（针对类似 XGBoost 等树模型）；
删除（缺失数据太多）；
插值补全，包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等；
分箱，缺失值一个箱；
特征构造：
构造统计量特征，报告计数、求和、比例、标准差等；
时间特征，包括相对时间和绝对时间，节假日，双休日等；
地理信息，包括分箱，分布编码等方法；
非线性变换，包括 log/ 平方/ 根号等；
特征组合，特征交叉；
仁者见仁，智者见智。
特征筛选
过滤式（filter）：先对数据进行特征选择，然后在训练学习器，常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法；
包裹式（wrapper）：直接把最终将要使用的学习器的性能作为特征子集的评价准则，常见方法有 LVM（Las Vegas Wrapper）；
嵌入式（embedding）：结合过滤式和包裹式，学习器训练过程中自动进行了特征选择，常见的有 lasso 回归；
降维
PCA/ LDA/ ICA；
某种程度上，特征选择也是一种降维。

qq_42281101

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task 3 特征工程

特征工程1. 概述特征工程是数据挖掘中至关重要的一环，其主要目的在于将数据转换为能更好地表示潜在问题的特征，从而提高机器学习的性能。例如，异常值处理是为了去除噪声，填补缺失值可以加入先验知识等。特征构造也属于特征工程的一部分，其目的是为了增强数据的表达。有些数据特征是匿名特征，这导致我们并不清楚特征相互直接的关联性，这时我们就只有单纯基于特征进行处理，比如装箱，groupby，agg...
复制链接

扫一扫