beanutils.copyproperties属性值丢失_机器学习tips(一):缺失值的处理

本文探讨了数据缺失的原因,强调了处理空值的重要性。介绍了查看数据缺失值分布的方法,并详细阐述了删除元组和数据补齐两种处理方式,包括平均值填充、回归、K最近邻法等策略。同时,异常值的识别和处理也被提及,如3δ原则和距离检测。
摘要由CSDN通过智能技术生成

dfb05c5324924b2800c244cb3ee1e236.png

造成数据缺失的原因是多方面的,主要可能有以下几种:

  1. 有些信息暂时无法获取,致使一部分属性值空缺出来。
  2. 有些信息因为一些人为因素而丢失了。
  3. 有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名。
  4. 获取这些信息的代价太大,从而未获取数据。

为什么要进行空值处理?

  1. 系统丢失了大量的有用信息;
  2. 系统的不确定性更加显著,系统中的确定性成分更难把握;
  3. 包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。

怎样查看数据缺失值的分布情况?

1.统计每列数据缺失值的分布情况

data.isnull().sum()

2.统计每行数据缺失值的分布情况

data.isnull().sum(axis=1)

通过指定参数axis=1来实现对每行数据的缺失值进行统计,默认是axis=0表示列。

空值处理的方法:

一、删除元组

将存在遗漏信息属性值的对象(记录)删除,从而得到一个完备的信息表。这种方法在对象有多个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值