数据探索之缺失值处理及代码实现

最新推荐文章于 2024-04-21 08:30:00 发布

宋应

最新推荐文章于 2024-04-21 08:30:00 发布

阅读量3.5k

点赞数

分类专栏： Python 机器学习文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/songying2012/article/details/51023952

版权

在数据挖掘中，前期数据预处理，会涉及到很多缺失值的处理问题。
现以python代码实现为例，看如何具体处理的。

所需python包

from pandas import Series, DataFrame
import pandas as pd

寻找缺失值

def FindFeactureNAorValue(data, feacture_cols, axis=0, value = 'NA', prob_dropFct = 0.95):
    '''
    函数说明：寻找每一个特征有多少value值，默认为：缺失值，及所占比率
    输入：data——整个数据集，包括Index，target
        feacture_cols——特征名
        prob_dropFct——大于这个比例，就丢掉该特征
    输出：numValue——DataFrame  index='feacture1', columns=['numnumValue', 'probnumValue']
        dropFeacture_cols——要丢掉的特征列名
    '''
    #计算x中value值个数
    def num_Value(x, value = 'NA'):
        if value == 'NA':
            return sum(x.isnull())   #寻找缺失值个数
        else:
            return sum(x == value)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

宋应

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
数据探索之缺失值处理及代码实现

在数据挖掘中，前期数据预处理，会涉及到很多缺失值的处理问题。现以python代码实现为例，看如何具体处理的。所需python包from pandas import Series, DataFrameimport pandas as pd寻找缺失值def FindFeactureNAorValue(data, feacture_cols, axis=0, value = 'NA', prob
复制链接

扫一扫