数据挖掘入门-Task03-特征工程总结

特征工程是数据挖掘中的关键步骤,包括异常处理、归一化、数据分桶、缺失值处理、特征构造和筛选、降维等。其主要目标是将数据转换为更有效的特征,提高机器学习模型的性能。特征工程的好坏直接影响比赛的排名和结果,尤其是在模型相似的情况下。对于非匿名特征,可以通过理解业务逻辑创建更有意义的特征。特征工程是一个既基础又复杂的领域,需要深入理解和实践。
摘要由CSDN通过智能技术生成

2、特征工程(最重要的一环)

目标

对于特征进行进一步分析,并对于数据进行处理

内容:

常见的特征工程:

1、异常处理:

  • 通过箱线图(或 3-Sigma)分析删除异常值;
  • BOX-COX 转换(处理有偏分布);
  • 长尾截断;

2、特征归一化/标准化:

  • 标准化(转换为标准正态分布);
  • 归一化(转换到 [0,1] 区间);
  • 针对幂律分布,可以采用公式:
    𝑙𝑜𝑔[(1+𝑥)/( 1 + 𝑚𝑒𝑑𝑖𝑎𝑛)]

3、数据分桶:

  • 等频分桶;

  • 等距分桶;

  • Best-KS 分桶(类似利用基尼指数进行二分类);

  • 卡方分桶;

  • 例子:

    • 数据分桶 以 power 为例

    • 这时候我们的缺失值也进桶了,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值