数据清洗——重复、异常、缺失

缺失值处理

(1)删除:缺失比例较小的情况,可以直接删除含有缺失值的记录。

(2)填充:常用方法包括使用如平均值、中位数、众数、常数填充均值比较多,使用模型预测(如线性回归、决策树、KNN等)填充

(3)保留:对于缺失值本身具有含义(如问卷调查中的“不愿透露”选项),或者缺失比例极高、难以有效填充的情况,可以选择保留缺失值,并在后续分析中予以特殊处理。

异常值处理

(1)删除:对错误很明显的,跟实际不太相符合的、且异常的数量不大的情况下直接删除

(2)修正:对于由于录入错误、单位转换错误等原因产生的异常值,可以通过修正回填正确的值。

(3)标记:对于无法确定是否为异常值,或者异常值具有潜在研究价值的情况,可以将其标记为异常,供后续分析时参考。标记不应改变原始数据,而是通过附加字段记录异常状态。

重复值处理

(1)删除:保留一条或多条(如按时间戳、优先级选取)代表记录,删除其余重复记录。

(2)合并:将重复记录的非重复属性合并到一个记录中,如使用列表、集合、JSON对象等结构存储。合并需处理好数据冲突,如采用先到优先、最后更新优先等规则。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值