机器学习——特征工程

一、特征抽取

1、字典

2、文本

二、特征处理

特征预处理:对数据进行处理,通过特定的统计方法(数学方法)将数据转换成算法要求的数据

(一)、特征处理的方法

1、数值型数据:

标准缩放:
1、归一化
2、标准化
3、缺失值

2、类别型数据:one-hot编码
3、时间类型:时间的切分

(二)sklearn特征处理的API

1⃣️ 归一化

1、归一化概念

在这里插入图片描述
特征同样重要时,进行归一化
在这里插入图片描述

2、归一化计算过程

在这里插入图片描述

3、归一化步骤

1、实例化MinMAxScaler
2、通过fit_transform转换

4、归一化总结

注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性(稳定性)较差,只适合传统精确小数据场景。

2⃣️ 标准化

1、标准化特点

在这里插入图片描述

2、标准化、归一化对比

在这里插入图片描述

3、标准化步骤

在这里插入图片描述

4、标准化总结

在这里插入图片描述

3⃣️ 缺失值处理

1、缺失值处理方法

一般按列填补
在这里插入图片描述

2、缺失值处理方语法

在这里插入图片描述

三、数据降维

(一)特征选择

1⃣️ 方法

在这里插入图片描述

1、 Filter语法:

在这里插入图片描述

(二)主成分分析

1、 API:sklearn.decomposition
2、概念

PCA:当特征数量达到上百的时候,考虑数据的简化
在这里插入图片描述
在这里插入图片描述

三、机器学习算法

1、sklearn数据集与估计器
在这里插入图片描述

2、k-近邻

在这里插入图片描述

3、朴素贝叶斯

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4、分类评估

1、准确率:

在这里插入图片描述

2、精确率召回率

在这里插入图片描述
在这里插入图片描述

3、F1-score

在这里插入图片描述

5、模型的选择与调优

1、交叉验证:

在这里插入图片描述

2、网格搜索

在这里插入图片描述

6、决策树与随机森林

1、信息增益

在这里插入图片描述
在这里插入图片描述

2、决策树

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、集成学习

在这里插入图片描述

4、随机森林

在这里插入图片描述
在这里插入图片描述
总结:/Users/limeng/Desktop/机器学习代码和资料/02_机器学习第二天_分类算,评估,调优/资料/第二天总结.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值