建模—python数据预处理(代码加算法 )

最新推荐文章于 2024-03-15 19:31:55 发布

会飞的猪 1

最新推荐文章于 2024-03-15 19:31:55 发布

阅读量775

点赞数 1

分类专栏： python 文章标签： python 算法数据分析经验分享程序人生

本文链接：https://blog.csdn.net/qq_44884421/article/details/107500116

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

如需帮忙请留下评论，看到我会回复

数据预处理

导入数据预处理中python所用到的包
（后导入数据）

# 导入第三方包
import pandas as pd
import numpy as np

查看各行列缺失情况

查看缺失值位置
查看缺失值所在行

a.isnull().sum()
miss_v = income.isnull()#查看缺失值位置
l_miss = income[miss_v.any(axis=1)]#查看缺失值所在行

缺失值处理’

方法1 删除

var_1 = std(a.iloc[:,1])

a_1 = a.dropna()# 删除含有缺失值的样本（行）
a1.head(3)#查看前三行
a1.shape

a2 = a.dropna(axis=1)# 删除含有缺失值的特征（列）
a2.head(3)
a2.shape

a3 = a.dropna(subset=['zhiding'])# 删除指定特征上有缺失的样本（这里'zhiding'为指定特征）
a3.head(3)
a3.shape

方法2 缺失值替换
（本问题中的三个缺失列均为离散型，可以考虑用众数替换缺失值）

a4 = a.fillna(value = {'zhiding':a.zhiding.mode()[0],
                              'op':a.occupation.mode()[0],
                              'pp':a['a-p'].mode()[0]}, 
                               inplace = False)

再次查看各列缺失情况

a4.isnull().sum()

#补充：如果用0替换
a5 = a.fillna(0) #根据数据情况使用
a5.isnull().sum()

方法3 插补法
（以线性插值为例）

a6 = pd.read_excel('a.xlsx')
a6.isnull().sum()

以上代码均和导入的数据有关，故不能直接运行，只有导入自己想要的数据之后才能使用

如转载请附上本文链接：https://blog.csdn.net/qq_44884421/article/details/107500116

会飞的猪 1

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录