机器学习小组- 特征工程1

本文详细介绍了特征工程中的归一化和特征预处理,特别是数值型特征的无量纲化,包括最值归一化、均值方差归一化以及各种归一化方法的适用场景。此外,还探讨了特征分箱的重要性,如增强模型的表达能力、鲁棒性和稳定性,并列举了无监督和有监督的分箱方法。
摘要由CSDN通过智能技术生成
归一化

把所有的数据都映射到同一个尺度(量纲)上。
最值归一化(normalization): 把所有数据映射到0-1之间。最值归一化的使用范围是特征的分布具有明显边界的(分数0~100分、灰度0~255),受outlier的影响比较大。
在这里插入图片描述
均值方差归一化(standardization): 把所有数据归一到均值为0方差为1的分布中。适用于数据中没有明显的边界,有可能存在极端数据值的情况。
在这里插入图片描述

特征工程

特征工程又包含了Data PreProcessing(数据预处理)、Feature Extraction(特征提取)、Feature Selection(特征选择)和Feature construction(特征构造)等子问题。

特征预处理

在这里插入图片描述

数值型特征无量纲化

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。
1.某些算法要求样本具有零均值和单位方差;
2.需要消除

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值