eviews如何处理缺失数据填补_数据清洗:缺失数据处理

数据清洗中,处理缺失值至关重要。常见的方法包括丢弃、补全、真值转换和不处理。丢弃法简单但可能导致信息损失;补全法如统计法、模型法、专家补全等能保留信息;真值转换法将缺失值视为数据一部分;不处理法适用于某些能自动处理缺失值的模型。
摘要由CSDN通过智能技术生成

3293482c60f3ddf52c2a4ac6e5b4e46a.png

在数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集,进行丢弃、填充、替换、去重等操作,实现去除异常、纠正错误、补足缺失的目的。数据缺失一般分两种:一是行记录的缺失,这种情况又称为记录丢失;二是数据列值的缺失,即由于各种原因导致的数据记录中某些列的值空缺,不同的数据存储和环境中对于缺失值的表示结果也不同,例如,数据库中是NULL,Python返回对象是None,Pandas或Numpy中NaN(值得注意的是,在极少数状态下,缺失值也会使用空字符串来代替,但空字符串绝对不同于缺失值)

方法一:丢弃

这种方法简单明了,直接删除带有缺失值的行记录(整行删除)或者列字段(整列删除),减少趋势数据记录对总体数据的影响。但丢失意味着会消减数据特征,以下任意一种场景都不宜采用丢弃的方法:1)数据集总体存在大量的数据记录不完整情况,且比例较大,例如超过10%,删除这些带有缺失值的记录意味着将会损失过多有用信息。2)带有缺失值的数据记录大量存在着明显的数据分布规则或特征,例如带有缺失值的数据记录的目标标签主要集中于某一类或几类,导致模型过拟合或分类不准确。

方法二:补全

相对于丢弃而言,补全是更加常用的缺失值处理方

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值