一、特征抽取
1、字典
2、文本
二、特征处理
特征预处理:对数据进行处理,通过特定的统计方法(数学方法)将数据转换成算法要求的数据
(一)、特征处理的方法
1、数值型数据:
标准缩放:
1、归一化
2、标准化
3、缺失值
2、类别型数据:one-hot编码
3、时间类型:时间的切分
(二)sklearn特征处理的API
1⃣️ 归一化
1、归一化概念
特征同样重要时,进行归一化
2、归一化计算过程
3、归一化步骤
1、实例化MinMAxScaler
2、通过fit_transform转换
4、归一化总结
注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性(稳定性)较差,只适合传统精确小数据场景。
2⃣️ 标准化
1、标准化特点
2、标准化、归一化对比
3、标准化步骤
4、标准化总结
3⃣️ 缺失值处理
1、缺失值处理方法
一般按列填补
2、缺失值处理方语法
三、数据降维
(一)特征选择
1⃣️ 方法
1、 Filter语法:
(二)主成分分析
1、 API:sklearn.decomposition
2、概念
PCA:当特征数量达到上百的时候,考虑数据的简化
三、机器学习算法
1、sklearn数据集与估计器
2、k-近邻
3、朴素贝叶斯
4、分类评估
1、准确率:
2、精确率召回率
3、F1-score
5、模型的选择与调优
1、交叉验证:
2、网格搜索
6、决策树与随机森林
1、信息增益
2、决策树
3、集成学习
4、随机森林
总结:/Users/limeng/Desktop/机器学习代码和资料/02_机器学习第二天_分类算,评估,调优/资料/第二天总结.pdf