数据清洗—清洗某属性
在数据清理过程中,某些属性可能缺省值过多,这对我们分析或者数据挖掘可能并没有太大的帮助,所以我们需要对其进行清洗工作。而某些属性或许并不缺省,但是方差却十分小,表情属性所携带信息较少,对于分析作用也不是很大也采用清洗工作。
删除缺省值大于某阈值的属性
## 将某一列中空缺值数量多于80%的列去除
# 删除缺省值大于threshold的属性
def del_attribution_threshold(dataframe, threshold, axis=1):
if axis == 1:
Null_mean = dataframe.isnull().mean()
Null_drop_attribution = Null_mean[Null_mean >= threshold].index
print('空缺值大于阈值的属性有:', Null_drop_attribution)
dataframe = dataframe.drop(Null_drop_attribution, axis= 1)
return dataframe
删除方差较小的属性
# 如果一个属性值的数值极大部分是一样的说明此属性对分析作用也不大,方差比较小,携带的信息较少,导致区分能力太差。
def del_same_attribution(dataframe, threshold):
attributions = dataframe.count().index
attr_counts = dataframe.count().values
count = 0
for