如需帮忙请留下评论,看到我会回复
数据预处理
- 导入数据预处理中python所用到的包
(后导入数据)
# 导入第三方包
import pandas as pd
import numpy as np
查看各行列缺失情况
- 查看缺失值位置
- 查看缺失值所在行
a.isnull().sum()
miss_v = income.isnull()#查看缺失值位置
l_miss = income[miss_v.any(axis=1)]#查看缺失值所在行
缺失值处理’
- 方法1 删除
var_1 = std(a.iloc[:,1])
a_1 = a.dropna()# 删除含有缺失值的样本(行)
a1.head(3)#查看前三行
a1.shape
a2 = a.dropna(axis=1)# 删除含有缺失值的特征(列)
a2.head(3)
a2.shape
a3 = a.dropna(subset=['zhiding'])# 删除指定特征上有缺失的样本(这里'zhiding'为指定特征)
a3.head(3)
a3.shape
- 方法2 缺失值替换
(本问题中的三个缺失列均为离散型,可以考虑用众数替换缺失值)
a4 = a.fillna(value = {'zhiding':a.zhiding.mode()[0],
'op':a.occupation.mode()[0],
'pp':a['a-p'].mode()[0]},
inplace = False)
再次查看各列缺失情况
a4.isnull().sum()
#补充:如果用0替换
a5 = a.fillna(0) #根据数据情况使用
a5.isnull().sum()
- 方法3 插补法
(以线性插值为例)
a6 = pd.read_excel('a.xlsx')
a6.isnull().sum()
以上代码均和导入的数据有关,故不能直接运行,只有导入自己想要的数据之后才能使用
如转载请附上本文链接:https://blog.csdn.net/qq_44884421/article/details/107500116