机器学习——特征工程之数据预处理

一、前言

1、无量纲化:解决不属于同一量纲问题,即特征的规格不一样,不能够放在一起比较。

2、离散化:解决信息冗余问题,增加鲁棒性。对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。

3、哑编码:解决定性特征不能直接使用问题。某些机器学习算法和模型只能接受定量特征的输入,那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值,但是这种方式过于灵活,增加了调参的工作。哑编码的方式相比直接指定的方式,不用增加调参的工作,对于线性模型来说,使用哑编码后的特征可达到非线性的效果。

4、缺失值计算:解决样本存在缺失值问题,可通过计算补充样本缺失值。

5、数据变换:解决信息利用率低问题,不同的机器学习算法和模型对数据中信息的利用是不同的,对定量变量多项式化,或者进行其他的转换,都能达到非线性的效果。

二、无量纲化

1、标准化:特征值服从正态分布,标准化后转换为标准正态分布 x=(x-X ̅)/S

2、区间缩放法:区间缩放法的思路有多种,常见的一种为利用两个最值进行缩放x^{'}=(x-Min)/(Max-Min)

3、 标准化与归一化的区别

    a) 标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。

    b) 归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。

x^{'}=x/√(∑_j^mx[j]^2 )

三、离散化

1、 二值化:定量特征二值化的核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0


2、 多区间离散化:设置多个阈值,把连续值划分成离散个区间,用离散值替代

四、哑编码

        数据集中有很多变量类型是Nominal的,对于某些算法而言,完全的Nominal类型的变量是无法计算的,这是就要进行哑编码。所谓哑编码就是假设有N种定性值,则将这一个特征扩展为N种特征,当原始特征值为第i种定性值时,第i个扩展特征赋值为1,其他扩展特征赋值为0。

五、缺失值计算

        缺失值的处理有很多种方法,直接赋值、平均数、众数、K最近邻平均数等,需要根据不同的业务场景、数据含义及特征进行选择。

六、数据变换

       常见的数据变换有基于多项式的、基于指数的、基于对数的。4个特征,度为2的多项式转换公式如下:


       不过并不是所有的特征都要进行多项式变换,否则会造成维度灾难。至于哪些类型的属性需要进行多项式变换,还没有总结出统一的法则。对于某些偏度较大的属性,可采用基于对数的变换方法来降低数据偏度对结果的影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值