数据预处理与特征工程总结

最新推荐文章于 2022-12-28 20:40:47 发布

青月数据

最新推荐文章于 2022-12-28 20:40:47 发布

阅读量240

点赞数

分类专栏：算法文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39198774/article/details/104885882

版权

算法专栏收录该内容

11 篇文章 1 订阅

订阅专栏

特征预处理

特征预处理是数据预处理过程的重要步骤，是对数据的一个的标准的处理，几乎所有的数据处理过程都会涉及该步骤。

数值型特征无量纲化

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。

标准化：

标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。

归一化

MinMax归一化：区间缩放法利用了边界值信息，将属性缩放到[0,1]

区间缩放法利用了边界值信息，将属性缩放到[0,1]

MaxAbs归一化：单独地缩放和转换每个特征，使得训练集中的每个特征的最大绝对值将为1.0，将属性缩放到[-1,1]。它不会移动/居中数据，因此不会破坏任何稀疏性。

正态分布化（Normalization）

正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1)，如果要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。

数值型特征特征分箱（数据离散化）

离散化是数值型特征非常重要的一个处理，其实就是要将数值型数据转化成类别型数据。连续值的取值空间可能是无穷的，为了便于表示和在模型中处理，需要对连续值特征进行离散化处理。

单独地缩放和转换每个特征，使得训练集中的每个特征的最大绝对值将为1.0，将属性缩放到[-1,1]。它不会移动/居中数据，因此不会破坏任何稀疏性。

无监督分箱法

自定义分箱：自定义分箱，是指根据业务经验或者常识等自行设定划分的区间，然后将原始数据归类到各个区间中。

等距分箱：按照相同宽度将数据分成几等份。

等频分箱：将数据分成几等份，每等份数据里面的个数是一样的。

聚类分箱：基于k均值聚类的分箱。

二值化（Binarization）：二值化可以将数值型（numerical）的feature进行阀值化得到boolean型数据。这对于下游的概率估计来说可能很有用（比如：数据分布为Bernoulli分布时）。

有监督分箱法

卡方分箱法：自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验：具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。

最小熵法分箱：需要使总熵值达到最小，也就是使分箱能够最大限度地区分因变量的各类别。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据预处理与特征工程总结

特征预处理特征预处理是数据预处理过程的重要步骤，是对数据的一个的标准的处理，几乎所有的数据处理过程都会涉及该步骤。数值型特征无量纲化无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。标准化：标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。归一化 MinMax归一化：区间缩放法利用了边界值信息，将属性缩放到[0,1]区...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。