特征工程的建立过程

特征工程在数据挖掘中占据重要地位,大约80%的工作集中在特征选取上。通过数据预处理,如缺失值填充、异常值处理,以及特征提取、组合和分箱,可以提升模型性能和稳定性。特征分箱有助于降低变量复杂性,处理异常值并增强业务解释性。特征选择则涉及多种方法,如方差选择、相关系数法、卡方检验、互信息法、RFE和基于惩罚项的特征选择。特征编码通常采用one-hot或label-encode。
摘要由CSDN通过智能技术生成

1 特征工程

1.1 了解特征工程

数据挖掘“二八原则”

  • 80%的精力 => 选取特征
  • 20%的精力 => 模型融合等
    基于数据分析与探索提取潜在有价值的特征
    在这里插入图片描述
    特征工程重要性
  • 特征越好,模型的性能越出色
  • 特征越好,构建的模型越简单
  • 特征越好,模型的灵活性越强

1.2 特征提取与特征组合

在特征工程前面需要进行数据预处理

  • 缺失值的填充
  • 时间格式处理
  • 对象类型特征转换到数值
  • 异常值处理
    1. 基于3segama原则
    2. 基于箱型图
  • 数据分箱
    (1) 特征分箱的目的:从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。
    (2)数据分桶的对象:将连续变量离散化;将多状态的离散变量合并成少状态
    (3)分箱的原因:数据的特征内的值跨度可能比较大,对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度。都会造成大吃小的影响,其中一种解决方法是对计数值进行区间量化即数据分桶也叫做
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值