sklearn中的常见缺失值处理

最新推荐文章于 2025-06-15 09:00:00 发布

原创最新推荐文章于 2025-06-15 09:00:00 发布 · 2.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析

pandas中dropna（）

data1.dropna(inplace=True,axis=0)

inplace 表示是否覆盖原数据

True：直接修改原对象
False：创建一个副本，修改副本，原对象不变（缺省默认）

axis=0 表示对列进行操作；1表示对行
how

‘any’指带缺失值的所有行;'all’指清除全是缺失值的

thresh

df.dropna(thresh=2) 表示保留至少有2个非NaN数据所在的行

pandas中fillna()

df["Age"].fillna(df["Age"].mean())

参数inplace同样表示是否覆盖源数据

True/False

limit

对填充数进行限制

method
这里有更详细的fillna函数用法

sklearn默认均值填补

from sklearn.impute import SimpleImputer
impute_mean = SimpleImputer()  # 使用默认的均值填补
imp_mean = impute_mean.fit_transform(x)

当strategy不填写时，默认使用均值填补

sklearn使用中位数进行填补

strategy=“median”

impute_median = SimpleImputer(strategy="median")  #使用中位数进行填补
imp_median = impute_median.fit_transform(x)

sklearn使用0进行填补

impute_0 = SimpleImputer(strategy="constant",fill_value=0)  #使用0进行填补
imp_0 = impute_0.fit_transform(x)

fill_value表示用什么数值进行填补，这里使用0进行填补

sklearn用众数进行缺失值填补

strategy=“most_frequent”

当特征是少量的文本时

impute_mode = SimpleImputer(strategy="most_frequent")
imp_mode = impute_mode.fit_transform(x)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ctr+Alt+Del

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

数据预处理-用sklearn解决数据中出现缺失值

weixin_41798592的博客

09-25

1198

机器学习和数据挖掘中所使用的数据，永远不可能是完美的。很多特征，对于分析和建模来说意义非凡，但对于实际收集数据的人却不是如此，因此数据挖掘之中，常常会有重要的字段缺失值很多，但又不能舍弃字段的情况。因此，数据预处理中非常重要的一项就是处理缺失值。在这里，我们使用从泰坦尼克号提取出来的数据，这个数据有三个特征，一个数值型，两个字符型，标签也是字符型。从这里开始，我们就使用这个数据给大家作为例...

【缺失值处理】拉格朗日插值法—随机森林算法填充—sklearn填充（均值/众数/中位数）

积一时之步，臻千里之遥程

09-15

1万+

缺失值的分类按照数据缺失机制可分为：可忽略的缺失完全随机缺失，所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关随机缺失，假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。不可忽略的缺失或非随机缺失，如果不完全变量中数据的缺失既依赖于完全变量又依赖于不完全变量本身，这种缺失即为不可忽略的缺失。 缺失值的处理不处理删除存在缺失值的样本（或特征） 缺失值插补使用泰坦尼克数据集： import seaborn as sns # 导出泰

参与评论您还未登录，请先登录后发表或查看评论

python-数据分析（6-numpy）

zaibiketaide的专栏

09-01

750

Numpy 6 Numpy 6.1 Numpy介绍与安装 Numpy是什么？ Numpy(Numerical Python)是目前Python数值计算中最为重要的基础包。大多数计算包都提供了基于Numpy的科学函数功能，将Numpy的数组对象作为数据交换的通用语。 Numpy特点提供高效多维数组提供了基于数组的便捷算术操作以及广播机制对数据进行快速的矩阵计算对硬盘中数组数据进行读写操作 Numpy安装直接在dos命令行中pip install numpy 即可。 6.2 Numpy基本操作

sklearn实现缺省值填充

qq_35358021的博客

11-16

769

import numpy as np from sklearn.preprocessing import Imputer X = [[2,2,4,1], [np.nan,3,4,4], [1,1,1,np.nan], [2,2,np.nan,3] ] X2 = [ [2,6,np.nan,1], [np.nan,5,np.nan,1], [4,1,np.nan,5], [np.na...

Python 中的sklearn库填补缺失值问题

m0_37567443的博客

08-08

4015

利用Python学习ML时，了解到需要对数据中的缺失值进行处理，否则无法直接利用sklearn进行训练，缺失值得处理需要用到sklearn.preprocessing中的imputer库。首先需要说明的是，numpy的数组中可以使用np.nan/np.NaN（Not A Number）来代替缺失值，对于数组中是否存在nan可以使用np.isnan()来判定。使用type(np.nan)或者...

特征工程—sklearn中缺失值填充方法

m0_57210162的博客

12-11

2852

import pandas as pd data = pd.read_csv("C:/Users/ASUS/Desktop/第四章类别比较型图表数据/PloarRange_Data.csv") data.info() #探索数据使用sklearn中的SimleImputer进行缺失值处理，sklearn提供中位数，0，众数进行填充首先对填充方法进行实列化 from sklearn.impute import SimpleImputer #导入缺失值处理库 imp_mean .

Sklearn 机器学习 缺失值处理使用常量填充缺失值

Kant2048的博客

06-11

926

在 Scikit-learn 中，如何使用常量填充法处理缺失值。

Sklearn 机器学习 缺失值处理使用最频繁的值填充缺失值

Kant2048的博客

06-13

724

使用 Sklearn 的 SimpleImputer 工具填充缺失值的方法，重点讲解如何用最频繁值（mode）处理分类变量中的缺失数据。

Sklearn 机器学习 缺失值处理过滤掉缺失值的行并统计

最新发布

Kant2048的博客

06-15

548

使用 Python 与 pandas + sklearn 组合，过滤掉包含缺失值的行，并统计每列的缺失值数量，为后续建模打下干净整洁的数据基础。

sklearn非数值缺失值处理

11-23

在`sklearn`中处理非数值（类别）缺失值通常不直接使用`KNNImputer`，因为这个类主要用于数值特征的缺失值填充。对于分类数据的缺失值，一种常见的做法是通过列联接（如`fillna`函数）或其他方法替换缺失值，比如用...

sklearn.impute.SimpleImputer 数据填充

12-21

数据缺失值补全方法sklearn.impute.SimpleImputer imp=SimpleImputer(missing_values=np.nan,strategy=’mean’) 创建该类的对象，missing_values,也就是缺失值是什么，一般情况下缺失值当然就是空值啦，也就是np.nan strategy:也就是你采取什么样的策略去填充空值，总共有4种选择。分别是mean,median, most_frequent,以及constant，这是对于每一列来说的，如果是mean，则该列则由该列的均值填充。而median,则是中位数，most_frequent则是众数。需要注意的是

Python中数据清洗中的缺失值处理

shejizuopin的博客

05-10

1239

缺失值检测三板斧：统计函数+可视化工具+模式分析填充方法选择矩阵：数据类型×缺失比例×业务需求高级插补技术：KNN/多重插补/模型预测的适用场景质量保障体系：从处理到验证的完整闭环建立配置化清洗流程（如YAML定义处理规则）开发自动化测试用例（覆盖缺失值场景）记录清洗日志（包含处理方法和参数）通过系统性应用这些技术，可显著提升数据质量，为后续的建模工作奠定坚实基础。

Python sklearn学习之缺失值插补

洪城浪子的博客

08-02

1万+

Python sklearn学习之缺失值插补文章目录Python sklearn学习之缺失值插补1 单变量插补1.1 SimpleImputer类2 多变量插补2.1 IterativeImputer类3 标记缺失值 scikit-learn要求数据没有缺失值，如果出现了缺失值，则需要对数据集进行插补——从已有数据推断出缺失的数据。在插补过程中，若只使用缺失特征维度中非缺失值来插补该特征维度下...

机器学习sklearn----用随机森林来填充缺失值

weixin_43776305的博客

05-23

6185

文章目录概述导入需要的库概述我们在现实中收集的数据，几乎不可能是完美无缺的，往往会有一些缺失值，面对缺失值，很多人先择的方法是直接将包含缺失值的样本删除，，这是一种有效的方法，但是有时候填补缺失值比之际丢弃样本有更好的效果。即使我们其实并不知道缺失值的真实样貌。在sklearn中，我们可以使用sklearn.impute.SimpleImputer来轻松的将均值、中值或者其他常用的数值填补到缺失值中。在这个案例中我们将用均值，0，和随机森林来填补缺失值，并验证四种情况下的拟合情况，找出对使用数据集来说最

Python-sklearn数据预处理（单/多个数据集数据标准化、稳健标准化、缺失值填补）

rettbbetter的博客

02-05

3388

sklearn数据预处理部分，其中包括不同情况下的数据标准化以及遇到异常值（稳健标准化）或缺失值（缺失值填补）情况该如何对数据进行处理，简单复习上篇笔记sklearn三板斧

sklearn缺失值处理

FlatTiger的博客

07-21

1282

处理方式 1.删除：如果某一行或者某一列缺失值所占比重过大，那么可以删除此行或者此列。 2.插补：通过每行或者每列的平均值、中位数，对空值进行填充。通常我们使用插补法，按照每列特征的平均值或者中位数进行填充。代码实现 import numpy as np from sklearn.impute import SimpleImputer # 老版本的sklearn需要引用如下API # import sklearn.preprocessing.Imputer def im(): """

Pandas 数据处理（一）缺失值处理

Ricardo的博客

12-13

1417

Pandas 数据处理（一）缺失值处理 缺失值处理 缺失值详细位置 data.isnull() 有缺失值的特征列 data.isnull().any() 提取出有缺失值的行 data[data.isnull().values==True] 缺失值删除 data.dropna(how='any',axis=0,inplace=True) how : {‘any’, ‘all’}，‘an...

Python处理数据中的空值（缺失值）时用到的dropna()函数和fillna()函数总结，通过示例弄懂这两个函数的用法。