1 特征工程
1.1 了解特征工程
数据挖掘“二八原则”
- 80%的精力 => 选取特征
- 20%的精力 => 模型融合等
基于数据分析与探索提取潜在有价值的特征
特征工程重要性 - 特征越好,模型的性能越出色
- 特征越好,构建的模型越简单
- 特征越好,模型的灵活性越强
1.2 特征提取与特征组合
在特征工程前面需要进行数据预处理
- 缺失值的填充
- 时间格式处理
- 对象类型特征转换到数值
- 异常值处理
- 基于3segama原则
- 基于箱型图
- 数据分箱
(1) 特征分箱的目的:从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。
(2)数据分桶的对象:将连续变量离散化;将多状态的离散变量合并成少状态
(3)分箱的原因:数据的特征内的值跨度可能比较大,对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度。都会造成大吃小的影响,其中一种解决方法是对计数值进行区间量化即数据分桶也叫做