目录
前言
算法原理
数据预处理 Preprocessing & Impute
数据无量纲化
归一化
标准化
缺失值
处理分类型特征:编码与哑变量
处理连续型特征:二值化与分段
特征选择
Filter过滤法
特征选择(Feature Selection)
(1)定义
(2)作用
(3)方法
1)过滤式(Filter)
①方差选择法
②相关系数法
③互信息法
④卡方检验(Chi-Square)
2)封装式(Wrapper)
①完全搜索[穷举]
②启发式搜索[贪心]
③随机搜索[策略+好运气]
3)嵌入式(Embedded)
①基于惩罚项
②基于树模型
③深度学习
特征构造
(1)定义
(2)作用
(3)方法
1)简单构造
①四则运算
②特征交叉(组合分类特征)
③分解类别特征
④重构数值量
⑤分解Datatime
⑥窗口变量统计
2)机器学习
①监督式学习
②非监督式学习
特征提取
(1)定义
(2)作用
(3)方法
1)线性降维
①主成分分析法(PCA)
②线性判别分析法(LDA)
③局部线性嵌入/LLE
④拉普拉斯特征映射/LE
⑤随机邻域嵌入/SNE
⑥t-分布邻域嵌入/T-SNE
2)非线性降维
①核主成分分析(KPCA):带核函数的PCA
3)迁移学习降维
①迁移成分分析(TCA):不同领域之间迁移学习降维
入模评估
1 作用
2 回归预测问题
3 分类预测问题
应用案例
数据背景
异常值处理
BOX-COX转换
箱线图
缺失值处理
数据分桶
数据转换
特征构造
时间特征的构造(time_data)
汽车的使用时间特征
汽车是不是符合报废
是不是淡旺季
根据汽车的使用时间或者淡旺季分桶进行统计特征的构造
类别特征的构造(cat_data)
邮编特征
构造统计特征
数值特征的构造(num_data)
对里程进行一个分箱操作
V系列特征的统计特征
特征选择
过滤式
去掉取值变化小的特征
单变量特征选择
包裹式
PCA降维技术
前言
在商业数据的分析挖掘当中,最常用的数据是结构化数据,其呈现为二维表的结构,数据可以用装载到二维数组当中,其中的每个数可以使用行与列进行索引。结构化数据中的每一行称为记录,也可称为样本或实例(视不同的学科而定),每一列则被称为字段,也可称为变量或特征(同样视学科领域而定),其中“特征(Feature)”这一叫法在机器学习及模式识别当中被广泛使用,在应用当中只要不引起歧义,可以不区分它们的叫法。
特征(feature)是一个被观察到的现象的可测量的属性,结构化数据中,特征通常以列的形式出现,用于描述记录在某些方面的属性;非结构化数据同样如此,例如对于一个文档,短语或单词的计数就可以是其一个特征。
特征是模型的输入,而不同的模型对输入有不同的要求。正因如此,原始数据往往需要通过一定的处理和转换才能在模型中使用,而为了提升模型的表现,又需要对所有可用的特征进行一定的筛选,既保证重要的特征进入模型,又要保证不会选择过多的特征。所有这些在建模前对数据进行处理、转换、筛选的工作被称为特征工程(Feature Engineering),其本质上是对原始数据的再加工,目的是产生进入模型的特征。“特征工程”这一名称在机器学习与模式识别领域被大量使用,在数据挖掘标准流程CRISP-DM当中,“数据准备”(Data Preparation)具有与特征工程相同的作用和类似的方法,因此在应用当中,无需严格区分,本章当中使用“特征工程”这一名称。
特征工程分为数据预处理(Data Preprocessin