MATLAB算法实战应用案例精讲-【数模应用】特征工程(最终篇)

目录

前言

算法原理

数据预处理 Preprocessing & Impute

数据无量纲化

归一化

标准化

缺失值

处理分类型特征:编码与哑变量

处理连续型特征:二值化与分段

特征选择

 Filter过滤法

特征选择(Feature Selection)

(1)定义

(2)作用

(3)方法

1)过滤式(Filter)

①方差选择法

②相关系数法

③互信息法

④卡方检验(Chi-Square)

2)封装式(Wrapper)

①完全搜索[穷举]

②启发式搜索[贪心]

③随机搜索[策略+好运气]

3)嵌入式(Embedded)

①基于惩罚项

②基于树模型

③深度学习

特征构造

(1)定义

(2)作用

(3)方法

1)简单构造

①四则运算

②特征交叉(组合分类特征)

③分解类别特征

④重构数值量

⑤分解Datatime

⑥窗口变量统计

2)机器学习

①监督式学习

②非监督式学习

特征提取

(1)定义

(2)作用

(3)方法

1)线性降维

①主成分分析法(PCA)

②线性判别分析法(LDA)

③局部线性嵌入/LLE

④拉普拉斯特征映射/LE

⑤随机邻域嵌入/SNE

⑥t-分布邻域嵌入/T-SNE

2)非线性降维

①核主成分分析(KPCA):带核函数的PCA

3)迁移学习降维

①迁移成分分析(TCA):不同领域之间迁移学习降维

入模评估

1 作用

2 回归预测问题

3 分类预测问题

应用案例

数据背景

异常值处理

BOX-COX转换

箱线图

缺失值处理

数据分桶

数据转换

特征构造

时间特征的构造(time_data)

汽车的使用时间特征

汽车是不是符合报废

是不是淡旺季

根据汽车的使用时间或者淡旺季分桶进行统计特征的构造

类别特征的构造(cat_data)

邮编特征

构造统计特征

数值特征的构造(num_data)

对里程进行一个分箱操作

V系列特征的统计特征

特征选择

过滤式

去掉取值变化小的特征

单变量特征选择

包裹式

PCA降维技术


 

前言

在商业数据的分析挖掘当中,最常用的数据是结构化数据,其呈现为二维表的结构,数据可以用装载到二维数组当中,其中的每个数可以使用行与列进行索引。结构化数据中的每一行称为记录,也可称为样本或实例(视不同的学科而定),每一列则被称为字段,也可称为变量或特征(同样视学科领域而定),其中“特征(Feature)”这一叫法在机器学习及模式识别当中被广泛使用,在应用当中只要不引起歧义,可以不区分它们的叫法。

​ 特征(feature)是一个被观察到的现象的可测量的属性,结构化数据中,特征通常以列的形式出现,用于描述记录在某些方面的属性;非结构化数据同样如此,例如对于一个文档,短语或单词的计数就可以是其一个特征。

​ 特征是模型的输入,而不同的模型对输入有不同的要求。正因如此,原始数据往往需要通过一定的处理和转换才能在模型中使用,而为了提升模型的表现,又需要对所有可用的特征进行一定的筛选,既保证重要的特征进入模型,又要保证不会选择过多的特征。所有这些在建模前对数据进行处理、转换、筛选的工作被称为特征工程(Feature Engineering),其本质上是对原始数据的再加工,目的是产生进入模型的特征。“特征工程”这一名称在机器学习与模式识别领域被大量使用,在数据挖掘标准流程CRISP-DM当中,“数据准备”(Data Preparation)具有与特征工程相同的作用和类似的方法,因此在应用当中,无需严格区分,本章当中使用“特征工程”这一名称。

​ 特征工程分为数据预处理(Data Preprocessin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

林聪木

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值