4000字归纳总结 Pandas+Sklearn 带你做数据预处理

最新推荐文章于 2024-04-17 22:28:23 发布

欣一2002

最新推荐文章于 2024-04-17 22:28:23 发布

阅读量495

点赞数 1

文章标签：机器学习 python 数据分析数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_43373042/article/details/121173556

版权

本文详述了数据预处理的关键步骤，包括加载数据、处理缺失值（如删除、填充）、离散型数据转换（有序与无序的编码）、数据标准化（z-score、线性归一化、方法）以及数据集划分和去除重复值。通过实例展示了如何使用Pandas和Sklearn库进行高效的数据预处理。

摘要由CSDN通过智能技术生成

就在前天的一篇原创文章中，

7000字 23张图，Pandas一键生成炫酷的动态交互式图表

有粉丝问道，是不是写一篇关于数据预处理的文章，小编立马就答应了他的请求，那么今天我们就来讲讲数据预处理过程当中的一些要点与难点。我们大致会提到数据预处理中的

加载数据
处理缺失值如何处理
处理离散型数据该如何处理
数据的标准化
将数据集划分成训练集与测试集
去掉重复值

加载数据

我们导入必要的库并且加载数据

import pandas as pd
df = pd.read_csv("data.csv")

在进行数据分析前，可以查看一下数据的总体情况，从宏观上了解数据

data.head() #显示前五行数据
data.tail() #显示末尾五行数据
data.info() #查看各字段的信息
data.shape #查看数据集有几行几列,data.shape[0]是行数,data.shape[1]是列数
data.describe() #查看数据的大体情况，均值，最值，分位数值...
data.columns.tolist()   #得到列名的list

处理缺失值

缺失值一直都是数据预处理当中比较常见的一个问题，而在处理类似的问题的时候，方式方法也是多种多样的，我们一一来介绍，

data = [['小明',25,55],['小红',28,60],['小王',26]]
df = pd.DataFrame(data=data,columns=['Name','Age','Weight'])

output

Name  Age  Weight
0   小明   25    55.0
1   小红   28    60.0
2   小王   26     NaN

针对上面的数据集，我们通过pandas中的方法看一下缺失值的情况

df.isnull()

output

Name    Age  Weight
0  False  False   False
1  False  False   False
2  False  False    True

另外我们也可以这么来做，检测每一列空值的数量

df.isnull().sum()

output

Name      0
Age       0
Weight    1
dtype: int64

而在面对缺失值的时候，我们一方面可以将其去除

最低0.47元/天解锁文章

欣一2002

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫