建模—python数据预处理(代码加算法 )

如需帮忙请留下评论,看到我会回复

数据预处理

  • 导入数据预处理中python所用到的包
    (后导入数据)
# 导入第三方包
import pandas as pd
import numpy as np

查看各行列缺失情况

  • 查看缺失值位置
  • 查看缺失值所在行
a.isnull().sum()
miss_v = income.isnull()#查看缺失值位置
l_miss = income[miss_v.any(axis=1)]#查看缺失值所在行

缺失值处理’

  • 方法1 删除
var_1 = std(a.iloc[:,1])
a_1 = a.dropna()# 删除含有缺失值的样本(行)
a1.head(3)#查看前三行
a1.shape

a2 = a.dropna(axis=1)# 删除含有缺失值的特征(列)
a2.head(3)
a2.shape

a3 = a.dropna(subset=['zhiding'])# 删除指定特征上有缺失的样本(这里'zhiding'为指定特征)
a3.head(3)
a3.shape
  • 方法2 缺失值替换
    (本问题中的三个缺失列均为离散型,可以考虑用众数替换缺失值)
a4 = a.fillna(value = {'zhiding':a.zhiding.mode()[0],
                              'op':a.occupation.mode()[0],
                              'pp':a['a-p'].mode()[0]}, 
                               inplace = False)

再次查看各列缺失情况

a4.isnull().sum()

#补充:如果用0替换
a5 = a.fillna(0) #根据数据情况使用
a5.isnull().sum()
  • 方法3 插补法
    (以线性插值为例)
a6 = pd.read_excel('a.xlsx')
a6.isnull().sum()

以上代码均和导入的数据有关,故不能直接运行,只有导入自己想要的数据之后才能使用

如转载请附上本文链接:https://blog.csdn.net/qq_44884421/article/details/107500116

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值