4000字归纳总结 Pandas+Sklearn 带你做数据预处理

本文详述了数据预处理的关键步骤,包括加载数据、处理缺失值(如删除、填充)、离散型数据转换(有序与无序的编码)、数据标准化(z-score、线性归一化、方法)以及数据集划分和去除重复值。通过实例展示了如何使用Pandas和Sklearn库进行高效的数据预处理。
摘要由CSDN通过智能技术生成

就在前天的一篇原创文章中,

7000字 23张图,Pandas一键生成炫酷的动态交互式图表

有粉丝问道,是不是写一篇关于数据预处理的文章,小编立马就答应了他的请求,那么今天我们就来讲讲数据预处理过程当中的一些要点与难点。我们大致会提到数据预处理中的

  • 加载数据

  • 处理缺失值如何处理

  • 处理离散型数据该如何处理

  • 数据的标准化

  • 将数据集划分成训练集与测试集

  • 去掉重复值

加载数据

我们导入必要的库并且加载数据

import pandas as pd
df = pd.read_csv("data.csv")

在进行数据分析前,可以查看一下数据的总体情况,从宏观上了解数据

data.head() #显示前五行数据
data.tail() #显示末尾五行数据
data.info() #查看各字段的信息
data.shape #查看数据集有几行几列,data.shape[0]是行数,data.shape[1]是列数
data.describe() #查看数据的大体情况,均值,最值,分位数值...
data.columns.tolist()   #得到列名的list
处理缺失值

缺失值一直都是数据预处理当中比较常见的一个问题,而在处理类似的问题的时候,方式方法也是多种多样的,我们一一来介绍,

data = [['小明',25,55],['小红',28,60],['小王',26]]
df = pd.DataFrame(data=data,columns=['Name','Age','Weight'])

output

Name  Age  Weight
0   小明   25    55.0
1   小红   28    60.0
2   小王   26     NaN

针对上面的数据集,我们通过pandas中的方法看一下缺失值的情况

df.isnull()

output

Name    Age  Weight
0  False  False   False
1  False  False   False
2  False  False    True

另外我们也可以这么来做,检测每一列空值的数量

df.isnull().sum()

output

Name      0
Age       0
Weight    1
dtype: int64

而在面对缺失值的时候,我们一方面可以将其去除

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值