特征工程-特征处理(二)

特征处理

在这里插入图片描述

二、时间特征处理

将原本的具体时间拆分为年月日等多个特征变量,同时可以引入在一天的某个时间段,或者是当天是否为节假日等其他条件,还可以进一步结合其他特征,进行前后一个时间段或是多个时间段时间的特征差值。

dt.shift(periods=1, freq=None, axis=0)

连续型变量处理(一)

单特征

  1. 归一化和标准化
    数据的归一化和标准化是特征缩放的方法。不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化/标准化处理,以解决数据指标之间的可比性。原始数据经过数据归一化/标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
    • 归一化:
    x_{new} = \frac{x - x_{min}}{x_{max} - x_{min}} 
    
    • 标准化:
      这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
    x_{new} = \frac{x - \mu}{\sigma} 
    

其中 μ \mu μ是样本数据的均值(mean), σ \sigma σ是样本数据的标准差(std)。此外,标准化后的数据保持异常值中的有用信息,使得算法对异常值不太敏感,这一点归一化就无法保证。

  1. 离散化
    特征离散化是指将原本连续的特征或变量划分为离散型变量的过程。
  • 无监督离散
    • 等宽分箱:按照相同的宽度将数据进行分成若干等分;
    • 等频分箱:将数据分为若干等分;
    • 聚类分箱:k均值聚类法将观测值聚为k类;
  • 有监督离散
    • 卡方分箱:通过计算数值之间的卡方值,将数据按照设定的卡方值阈值进行分类;
    • 最小熵分箱:最小熵分箱将待分箱特征的所有取值都放到一个箱体里,然后依据设定的最小熵原则进行箱体分裂。
  1. 数据变换
    • log:将所有数据进行log变换
    • 指数:将所有指数进行指数变换
    • box-cox变换:Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

alstonlou

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值