建模过程
1.数据集预处理:数据集验证、目标特征提取
2.EDA探索性数据分析
3.特征工程
4.构造训练集/测试集
5.模型设计
1.数据挖掘建模-数据预处理
特征工程前需要对拿到手的数据进行预处理,特征的来源有两方面一种是已有的特征数据,只需要找出适合模型需要特征;另一种是从业务特征中自己找出高级数据特征。
1.1缺失值
有缺失值列会影响模型质量,拿到数据后通常会先预处理数据集,当查看拿到手的数据集df_train.head()/df_train.shape/df_train.describe()/df_train.info(),
A.删缺失值多(无用)特征
1.对于缺失值较多的列可以提供给模型信息有限,可以舍弃该列属性。
half_count = len(loans_2020)/2
loans_2020 = loans_2020.dropna(thresh=half_count,axis=1)#剔除
空白值超过一半的列,thresh:剔除
2.特征列中空值较多且属性值少(1个或2个),对模型用处不大,剔除
orig_columns = loans_2020.columns
drop_columns = [] #初始化空值
for col in orig_columns:
col_series = loans_2020[col].dropna(