机器学习：《特征工程三部曲》之一数据处理（连续特征和离散特征）

368chen

于 2019-04-10 11:41:49 发布

阅读量2.3k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16236875/article/details/89176229

版权

机器学习专栏收录该内容

78 篇文章 2 订阅

订阅专栏

连续型：

1.1 特征归一化：线性放缩到[-1,1],放缩到均值0，方差1.按照特征的行处理数据。目的是在于样本向量在点乘运算或者其他核函数计算相似性时，拥有统一的标准。

1.2 特征标准化：

0-1 标准化：

x(标准化）=（x-最小值）/（最大值-最小值）

按照列处理，通过求Z-score的方法，将样本的特征值转化到同一量纲下。

x(标准化）=（x-均值）/标准差

2 连续变量离散化（有监督离散方法：决策树）：二值化处理：将细粒度的度量转化为粗粒度的度量，使得特征的差异化更大。取整：

3 特征多项式的交互：捕获特征之间的相关性

4 数据分布的倾斜处理：

log变化： log 变化倾向与拉高那些落在较低范围内的自变量取值，压缩那些落在较高的幅度范围内的自变量的取值，log 变化能给稳定数据的方差，使得数据的分布接近正太分布并使得数据与分布的均值无关。Box_Cox 也有相似的效果，出现负数，使用常数进行偏移。

5 缺失值处理

数据补全（用0替换，平均数替换，众数替换，预测模型替换），删除缺失行，不处理

离散型：

1 onehot 编码：可以将离散特征扩展到欧式空间，离散特征的某个取值就对应欧式空间的某个点。特征之间的距离计算或相似度计算是非常重要的，常用的距离或者相似性计算都是在欧式空间的相似度计算，计算余弦相似性，基于的是欧式空间。onehot 会让距离的计算更加合理。

2 dummy encoding 哑变量编码

3 label-encoding 标签编码

4 count-Encoding 频数编码（可以去量纲化，秩序，归一化）

将分类变量替换为训练集中的计数，对线性和非线性算法都很有用，可以对异常值敏感，可以添加对数转化，适用于计数，用1替换看不见的变量，可能会发生冲突：相同的编码，不同的变量。

5 Target encoding 二分类用目标变量中的某一类的比例来编码

为每个分类变量提供唯一的数字ID，适用于非线性基于树的算法，不增加维度，

6 Hash encoding ：

避免及其稀疏的数据

基于书的方法不需要进行特征的归一化，例如随机深林，bagging和boosting等，基于参数或距离的模型，都需要归一化。

1.数值特征

rounding
binning
scaling
imputation
interactions
no linear encoding
row statistics

2.类别特征

one-hot encoding
hash encoding
label encoding
count encoding
label-count encoding
target encoding
category embedding
Nan encoding
polynomial encoding
expansion encoding
consolidation encoding

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习：《特征工程三部曲》之一数据处理（连续特征和离散特征）

连续型：1.1 特征归一化：线性放缩到[-1,1],放缩到均值0，方差1.按照特征的行处理数据。目的是在于样本向量在点乘运算或者其他核函数祭祀按相似性时，拥有统一的标准。1.2 特征标准化：0-1 标准化：x(标准化）=（x-最小值）/（最大值-最小值）按照列处理，通过求Z-score的方法，将样本的特征值转化到同一量纲下。x(标准化）=（x-均值）/标准差2 连续...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。