机器学习模型流程
数据分析
缺失值
- 删除
- 均值、模型、中值填充
- 预测模型填充
异常值
-
检测
- 箱线图
- 直方图
- 散点图
-
处理
- 删除
- 转换
- 填充
- 区别
特征工程
数据预处理
- 数据采集
- 数据清洗
- 数据采样
特征处理
- 标准化
- 区间缩放法
- 归一化
- 定量特征二值化
- 定性特征哑编码
- 缺失值处理
- 数据转换
特征降维
-
特征选择的定义
- 特征选择是在数据分析和简单建模中常用的特征降维手段
-
特征选择的方法
-
过滤法
- 思路:特征变量和目标变量之间的关系
- 相关系数
- 卡方检验
- 信息增益,互信息
-
包装法
-
思路;通过目标函数(AUC/MSE)来决定是否加入一个变量
-
迭代:产生特征子集、评价
-
完全搜索
-
启发搜索
-
随机搜索
- 遗传算法
- 模拟退火法
-
-
-
嵌入法
-
思路
- 学习期自身自动选择特征
-
正则化
- L1;ASSO
- L2;RIDGE
-
决策树
- 熵、信息增益
- 深度学习
-
-
-
sklearn实现
-
VarianceThreshold
- 方差选择法
-
SelectBest
- 相关系数法
- 卡方检验
- 最大信息系数法
-
RFE
- 递归消除特征法
-
SelectFromModel
- 惩罚项特征选择法
- 树模型的特征选择法
-