特征工程

特征工程在机器学习中扮演着至关重要的角色,包括异常处理、特征归一化、数据分桶、缺失值处理、特征构造、特征筛选和降维等步骤。通过这些方法,可以将原始数据转化为更能反映问题本质的特征,从而提高模型性能。在匿名特征场景下,可以通过统计和变换创建新特征;而在有业务背景的场景中,深入理解业务逻辑能构建更有意义的特征。特征工程虽入门简单,但精通不易,且需要与模型相结合,不断验证和优化。
摘要由CSDN通过智能技术生成

(一)特征工程目标

对于特征进行进一步分析,并对于数据进行处理。

(二)特征工程内容

1.异常处理:

通过箱线图(或 3-Sigma)分析删除异常值;

BOX-COX 转换(处理有偏分布);

长尾截断;

2.特征归一化/标准化:

标准化(转换为标准正态分布);

归一化(抓换到 [0,1] 区间);

针对幂律分布,可以采用公式: log(1+x1+median)log(1+x1+median)

3.数据分桶:

等频分桶;

等距分桶;

Best-KS 分桶(类似利用基尼指数进行二分类);

卡方分桶;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值