数据缺失处理

最新推荐文章于 2024-01-22 23:06:30 发布

Handsome coder

最新推荐文章于 2024-01-22 23:06:30 发布

阅读量2k

点赞数 1

分类专栏：数据预处理机器学习文章标签：机器学习数据分析

本文链接：https://blog.csdn.net/liaozhaocong/article/details/116373546

版权

数据缺失处理是数据分析中的重要环节。常见的处理方法包括忽略元组、人工填充、使用全局常量、均值填充以及最可能值填充。在单变量情况下，常使用均值填充缺失值；对于稀疏矩阵，Imputer类同样适用。多变量处理时，需考虑更多因素。文中还给出了完整处理例子，涵盖了多种策略。

摘要由CSDN通过智能技术生成

一、缺失值的处理方法

由于各种各样的原因，真实世界中的许多数据集都包含缺失数据，这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容，因为大多数的学习算法都会默认数组中的元素都是数值，因此素偶有的元素都有自己的代表意义。

使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值，但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法：

1.忽略元组

当缺少类别标签时通常这样做（假定挖掘任务涉及分类时），除非元组有多个属性缺失值，否则该方法不是很有效。当每个属性缺少值的百分比变化很大时，它的性能特别差。

2.人工填写缺失值

一般该方法很费时，并且当数据集很大，缺少很多值时，该方法可能行不通。

3.使用一个全局常量填充缺失值

将缺失的属性值用同一个常数(如“Unknown”或负无穷)替换。如果缺失值都用“unknown”替换，则挖掘程序可能会认为它们形成一个有趣的概念，因为它们都具有相同的值“unknown”。因此，虽然该方法很简单，但是它十分不可靠。

4.使用与给定元组属同一类的所有样本的属性均值
例如：将顾客按照credit_risk分类，则使用具有相同信用度的给定元组的顾客的平均收入替换income中的缺失值。

5.使用最可能的值填充缺失值

可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如，利用数据集中其他顾客的属性，可以构造一颗决策树来预测income的缺失值。

二、单变量

1、使用均值填充缺失值

import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])

X = [<

最低0.47元/天解锁文章

Handsome coder

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
数据缺失处理

一、缺失值的处理方法由于各种各样的原因，真实世界中的许多数据集都包含缺失数据，这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容，因为大多数的学习算法都会默认数组中的元素都是数值，因此素偶有的元素都有自己的代表意义。使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值，但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法：1.忽略元组当缺少类别标签时通常这样做（假定挖掘任务涉及分类时），除非元组有多个属性缺失
复制链接

扫一扫

专栏目录