数据清洗—清洗某属性

数据清洗—清洗某属性

在数据清理过程中,某些属性可能缺省值过多,这对我们分析或者数据挖掘可能并没有太大的帮助,所以我们需要对其进行清洗工作。而某些属性或许并不缺省,但是方差却十分小,表情属性所携带信息较少,对于分析作用也不是很大也采用清洗工作。

删除缺省值大于某阈值的属性
## 将某一列中空缺值数量多于80%的列去除
# 删除缺省值大于threshold的属性
def del_attribution_threshold(dataframe, threshold, axis=1):  
    if axis == 1:
        Null_mean = dataframe.isnull().mean()
        Null_drop_attribution = Null_mean[Null_mean >= threshold].index
        print('空缺值大于阈值的属性有:', Null_drop_attribution)
        dataframe = dataframe.drop(Null_drop_attribution, axis= 1)
        return dataframe
    
删除方差较小的属性
# 如果一个属性值的数值极大部分是一样的说明此属性对分析作用也不大,方差比较小,携带的信息较少,导致区分能力太差。
def del_same_attribution(dataframe, threshold):
    attributions = dataframe.count().index
    attr_counts = dataframe.count().values
    count = 0
    for
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值