3000字详解四种常用的缺失值处理方法

2401_84140580

于 2024-05-15 05:37:26 发布

阅读量996

点赞数 29

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/2401_84140580/article/details/138885445

版权

程序员专栏收录该内容

130 篇文章 0 订阅

订阅专栏

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

删除虽说是一个可行的方式，但肯定是不能随便删除的，比如一个样本中仅有一个特征的值缺失，这样的情况下填充取得的效果一定会优于删除，所以在删除缺失值时，我们需要一个衡量的标准。

删除的方式无非有两种，一是删除缺失值所在行，也就是含有缺失值的样本；二就是删除缺失值所在列，也就是含有缺失值的特征，下面以后者为例。

首先需要确定的是删除的标准是什么？比如一个特征的缺失值所占比例已经超过了50%，如果选择填充的话，就表明该特征超五成的值都是自己猜测填入的，导致误差可能比删除这个特征还要大。

def find_missing(data):

#统计缺失值个数

missing_num = data.isna().sum(axis=0).sort_values(ascending=False)

missing_prop = missing_num/float(len(data)) #计算缺失值比例

drop_index = missing_prop[missing_prop>0.5].index.tolist() #过滤要删除特征名

return drop_index

在确定了这个标准之后，就可以利用一个自定义函数，将我们期望实现的功能封装至函数中。比如上面这个函数，先确定每个特征的缺失值个数并降序排列，然后计算缺失值比例，最后利用布尔索引得到需要删除的特征名。

data2 = data.copy()

data2.drop(find_missing(data2),axis = 1)

在数据集上应用这个函数，可以看到缺失值占比超50%的特征C被删除了。

这个衡量标准自己可以依据情况设定，然后删除样本的方式可以类比上述删除特征的方式。

2、pandas填充

pandas中的fillna()应该是最常用的一种填充缺失值方法，可以指定填充指定列或者整个数据集。

data[‘A’].fillna(value = data[‘A’].mean(),limit=1)

比如上面这句代码，就是只填充特征A一列，填充的选择可以利用平均数、中位数、众数等等，limit是限制要填充的个数，如果有两个缺失值，但是参数limit=1的话，按顺序填充第一个。

value参数也允许传入字典格式，键为要填充的特征名，值为要填充的缺失值。

values = {‘A’:4,‘B’:3,‘C’:4}

data.fillna(value=values)

填充之后结果如下：

fillna()方法固然简单，但前提是含有缺失值的特征比较少，如果很多的话，代码就会很冗杂，客观性也比较差。

3、sklearn填充

第二种填充方式是利用sklearn中自带的API进行填充。

from sklearn.impute import SimpleImputer

data1 = data.copy()

#得到含有缺失值的特征

miss_index = data1.isna().any()[data1.isna().any().values == True].index.tolist()

print(miss_index)

‘’’

[‘A’, ‘B’, ‘C’]

‘’’

首先利用布尔索引得到数据集含有缺失值的特征，后续操作只针对含有缺失值的特征。

miss_list = []

for i in miss_index:

#将一维数组转化为二维

miss_list.append(data1[i].values.reshape(-1,1))

for i in range(len(miss_list)):

#利用众数进行填充

imp_most = SimpleImputer(strategy=‘most_frequent’)

imp_most = imp_most.fit_transform(miss_list[i])

data1.loc[:,miss_index[i]] = imp_most

最需要注意的一点是SimpleImputer传入的参数至少要是二维，如果将直接索引出的一列特征传入的话，是会发生报错的，所以必须利用reshape()将一维转化为二维。之后的操作就是先实例化、然后训练模型，最后用填充后的数据覆盖之前的数据。

参数strategy共有四个选项可填：

1、mean:平均数
2、median:中位数
3、most_frequent:众数
4、constant：如果参数指定这个，将会选择另一个参数fill_value中的值作为填充值。

SimpleImputer优于fillna()之处在于前者可以一行语句指定填充值的形式，而利用fillna()需要多行重复语句才能实现，或者需要提前计算某列的平均值、中位数或者众数。

4、利用算法填充

我们都知道一般的算法建模是通过n个特征来预测标签变量，也就是说特征与标签标量之间存在某种关系，那么通过标签变量与(n-1)个特征是否能预测出剩下的一个特征呢？答案肯定是可以的。

实际上标签变量和特征之间可以相互转化，所以利用这种方法就可以填补特征矩阵中含有缺失值的特征，尤其适用于一个特征缺失值很多，其余特征数据很完整，特别标签变量那一列的数据要完整。

但是往往一个特征矩阵中很多特征都含有缺失值，对于这种情况，可以从特征缺失值最少的一个开始，因为缺失值越少的特征需要的信息也就越少。

当预测一个特征时，其余特征的缺失值都需要用0暂时填补，每当预测完一列特征，就用预测出的结果代替原数据集对应的特征，然后预测下一特征，直至最后一个含有缺失值的特征，此时特征矩阵中应该没有需要利用0填补的缺失值了，表示数据集已经完整。

以随机森林算法为例，实现上面表述填充缺失值的过程。

data3 = data.copy()

#获取含有缺失值的特征

miss_index = data3.isna().any()[data3.isna().any().values == True].index.tolist()

#按照缺失值多少，由小至大排序，并返回索引

sort_miss_index = np.argsort(data3[miss_index].isna().sum(axis = 0)).values

sort_miss_index

‘’’

array([1, 0, 2], dtype=int64)

‘’’

第一步就是通过布尔索引得到含有缺失值的特征，并且根据缺失值的多少进行由小到大排序，这里选择利用argsort，因为返回的排序是特征在特征矩阵中的索引。

for i in sort_miss_index:

data3_list = data3.columns.tolist() #特征名

data3_copy = data3.copy()

fillc = data3_copy.iloc[:,i] #需要填充缺失值的一列

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

（4）200多本电子书

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。

基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

（5）Python知识点汇总

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

（6）其他资料

还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

2401_84140580

关注

29
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
3000字详解四种常用的缺失值处理方法

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取。
复制链接

扫一扫