python数据预处理流程_数据预处理（python）

最新推荐文章于 2024-06-21 13:19:16 发布

weixin_39640762

最新推荐文章于 2024-06-21 13:19:16 发布

阅读量1.6k

点赞数 1

文章标签： python数据预处理流程

作为统计的一员，用python来对数据做语出这一步骤是必需的，所以接下来就来总结一下python数据预处理的步骤吧，这里就不放数据了，直接上代码，代码后都有解释，有错误的尽管提出来哈。下面是流程图：

一、数据预览

import pandas as pd

import numpy as np

data=pd.read_csv('path',sep=',' ,header = 0,encoding='gbk',usecols=['col1','col2','col3'])#导入数据，把path改成文件路径；数据中有中文的话，就用encoding='gbk'，没有中文的话就用encoding='utf-8'；usecols是可以让我们选择哪几列

data.head()#查看前五行

data.info()#查看各字段的信息,其中包含行数、是否为空、字符类型

data.shape#查看数据集行列分布，几行几列

data.describe()#查看数据的描述性统计，其中包括总数、均值、标准方差、最小最大、第一四分位数、中位数

预览完数据后要检查是否有重复值。

d=0

for i in train.duplicated():

if i !=False:

d+=1

print("d:",d)

二、数据清洗

2.1 缺失值处理

data.isnull()#元素级别的判断，把对应的所有元素的位置都列出来，元素为空或者NA就显示True，否则就是False

data.isnull().any(axis=0)# 查看各列是否存在空值，True表示有空值,axis=0代表是查看列，axis=1是查看行是否存在控制

data.isnull().any(axis=0).sum()#计算含有空值的列数，若把axis=0改成axis=1，则是计算含有空值的行数

data['column_name'].isnull().sum()#将某一列中为空或者NA的个数统计出来，把column_name改成字段名

缺失值有三种常用的处理方法，分别

最低0.47元/天解锁文章

weixin_39640762

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
python数据预处理流程_数据预处理（python）

作为统计的一员，用python来对数据做语出这一步骤是必需的，所以接下来就来总结一下python数据预处理的步骤吧，这里就不放数据了，直接上代码，代码后都有解释，有错误的尽管提出来哈。下面是流程图：一、数据预览import pandas as pdimport numpy as npdata=pd.read_csv('path',sep=',' ,header = 0,encoding='gbk'...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。