ML project procedure
【基于唐宇迪老师python数据分析与机器学习实战【2019新版】逻辑回归-信用卡检测任务】
1. 处理缺失特征值
均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似然估计、压缩感知、矩阵补全
2. 文本特征值化
特征二元化(中文数据类型转换)、独热编码(One-HotEncoding)
3. 标准化 (所有数据)
标准化:减小特征值自身数量级差异的影响( x - μ / σ == 中心化+缩放--> z-score 标准化)
=StandardScaler().fit_transform(xxxx)
4. 特征选择(feature selection -- 选取有效特征)
过滤法(Filter):按发散性or相关性对各个特征进行评分,设定阈值or待选择阈值的个数,选择特征
a. 去掉取值变化小的特征(Removing features with low variance)
b. 单变量特征选择 (Univariate feature selection)
包裹法(Wrapper):根据目标函数,每次选择若干特征或者排除若干特征,直到选择出最佳的子集。
a. 递归特征消除 (Recursive Feature Elimination)
嵌入法(Embedding):先用ML算法和模型训练,评分类似Filter,但通过训练来确定特征的优劣
a. 使用SelectFromModel选择特征 (Feature selection using SelectFromModel)
b. 将特征选择过程融入pipeline (Feature selec