最重要的事情开始都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂
- 单一变量比重检测 通常是设置比例的
#drop_list不满足条件列表
drop_list=[]
#对变量单一值进行检测,比例大于等于0.95,放入不满足条件列表,最后扔掉
for col in adata.columns:
percent = adata[col].value_counts().max()/float(len(adata))
if percent>=0.95:
print( ("The {} is not useful, please delete".format(col)))
drop_list.append(col)
adata.drop(drop_list,axis =1,inplace=True)
- 缺失值检测
一般我默认如果缺失值超过50%,该变量弃用
#查看缺失值比例
check_null = adata.isnull().sum(axis=0).sort_values(ascending=False)/float(len(adata))
#设置非缺失值比例
thresh_count=0.5
#如果非缺失值大于0.5,则保留,否则,该比例按量其中
#需要注意的是,这是指非缺失值,如果非缺失值thresh_count 为 0.6,则如果非缺失(0.6)也就是缺失小于0.4,才会保留
adata = adata.dropna(thresh=thresh_count, axis=1)