python数据预处理流程_数据预处理(python)

作为统计的一员,用python来对数据做语出这一步骤是必需的,所以接下来就来总结一下python数据预处理的步骤吧,这里就不放数据了,直接上代码,代码后都有解释,有错误的尽管提出来哈。下面是流程图:

一、数据预览

import pandas as pd

import numpy as np

data=pd.read_csv('path',sep=',' ,header = 0,encoding='gbk',usecols=['col1','col2','col3'])#导入数据,把path改成文件路径;数据中有中文的话,就用encoding='gbk',没有中文的话就用encoding='utf-8';usecols是可以让我们选择哪几列

data.head()#查看前五行

data.info()#查看各字段的信息,其中包含行数、是否为空、字符类型

data.shape#查看数据集行列分布,几行几列

data.describe()#查看数据的描述性统计,其中包括总数、均值、标准方差、最小最大、第一四分位数、中位数

预览完数据后要检查是否有重复值。

d=0

for i in train.duplicated():

if i !=False:

d+=1

print("d:",d)

二、数据清洗

2.1 缺失值处理

data.isnull()#元素级别的判断,把对应的所有元素的位置都列出来,元素为空或者NA就显示True,否则就是False

data.isnull().any(axis=0)# 查看各列是否存在空值,True表示有空值,axis=0代表是查看列,axis=1是查看行是否存在控制

data.isnull().any(axis=0).sum()#计算含有空值的列数,若把axis=0改成axis=1,则是计算含有空值的行数

data['column_name'].isnull().sum()#将某一列中为空或者NA的个数统计出来,把column_name改成字段名

缺失值有三种常用的处理方法,分别

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值