机器学习——特征工程之数据预处理

最新推荐文章于 2024-08-12 08:00:00 发布

小宇哥学AI

最新推荐文章于 2024-08-12 08:00:00 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

一、前言

1、无量纲化：解决不属于同一量纲问题，即特征的规格不一样，不能够放在一起比较。

2、离散化：解决信息冗余问题，增加鲁棒性。对于某些定量特征，其包含的有效信息为区间划分，例如学习成绩，假若只关心“及格”或不“及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和未及格。

3、哑编码：解决定性特征不能直接使用问题。某些机器学习算法和模型只能接受定量特征的输入，那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值，但是这种方式过于灵活，增加了调参的工作。哑编码的方式相比直接指定的方式，不用增加调参的工作，对于线性模型来说，使用哑编码后的特征可达到非线性的效果。

4、缺失值计算：解决样本存在缺失值问题，可通过计算补充样本缺失值。

5、数据变换：解决信息利用率低问题，不同的机器学习算法和模型对数据中信息的利用是不同的，对定量变量多项式化，或者进行其他的转换，都能达到非线性的效果。

二、无量纲化

1、标准化：特征值服从正态分布，标准化后转换为标准正态分布 x=(x-X ̅)/S

2、区间缩放法：区间缩放法的思路有多种，常见的一种为利用两个最值进行缩放 $x^{'}=(x-Min)/(Max-Min)$

3、标准化与归一化的区别

a) 标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。

b) 归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。

$x^{'}=x/√(∑_j^mx[j]^2 )$

三、离散化

1、二值化：定量特征二值化的核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0

2、多区间离散化：设置多个阈值，把连续值划分成离散个区间，用离散值替代

四、哑编码

数据集中有很多变量类型是Nominal的，对于某些算法而言，完全的Nominal类型的变量是无法计算的，这是就要进行哑编码。所谓哑编码就是假设有N种定性值，则将这一个特征扩展为N种特征，当原始特征值为第i种定性值时，第i个扩展特征赋值为1，其他扩展特征赋值为0。

五、缺失值计算

缺失值的处理有很多种方法，直接赋值、平均数、众数、K最近邻平均数等，需要根据不同的业务场景、数据含义及特征进行选择。

六、数据变换

常见的数据变换有基于多项式的、基于指数的、基于对数的。4个特征，度为2的多项式转换公式如下：

不过并不是所有的特征都要进行多项式变换，否则会造成维度灾难。至于哪些类型的属性需要进行多项式变换，还没有总结出统一的法则。对于某些偏度较大的属性，可采用基于对数的变换方法来降低数据偏度对结果的影响。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。