1、特征提取
设定因变量
提取自变量:
因变量与自变量的相关系数
决策树(基于熵)
连续值处理为离散值
业务逻辑
2、缺失值处理
平均值
业务逻辑统一值
模型拟合
3、异常值识别
1、基本统计量的分析(pandas.dataframe.describe())
数量,平均值,最大最小值,四分位值
2、箱线图
上界:上四分位+1.5四分位间距
下界:下四分位-1.5四分位间距
1、特征提取
设定因变量
提取自变量:
因变量与自变量的相关系数
决策树(基于熵)
连续值处理为离散值
业务逻辑
2、缺失值处理
平均值
业务逻辑统一值
模型拟合
3、异常值识别
1、基本统计量的分析(pandas.dataframe.describe())
数量,平均值,最大最小值,四分位值
2、箱线图
上界:上四分位+1.5四分位间距
下界:下四分位-1.5四分位间距