pandas describe函数_Pandas教程

最新推荐文章于 2024-04-22 08:00:00 发布

VIP文章 weixin_39518002

最新推荐文章于 2024-04-22 08:00:00 发布

阅读量1k

点赞数 3

文章标签： pandas describe函数

作为每个数据科学家都非常熟悉和使用的最受欢迎和使用的工具之一，Pandas库在数据操作、分析和可视化方面非常出色

为了帮助你完成这项任务并对Python编码更加自信，我用Pandas上一些最常用的函数和方法创建了本教程。我真心希望这对你有用。

导入库

为了我们的目的，“Pandas”库是必须导入的

import pandas as pd

导入/导出数据

“泰坦尼克号数据集”指定为“data”。

a) 使用read_csv将csv文件导入。你应该在文件中添加数据的分隔符。

data = pd.read_csv("file_name.csv", sep=';')

b) 使用read_excel从excel文件读取数据。

data = pd.read_excel('file_name.xls')

c) 将数据帧导出到csv文件，使用to_csv

data.to_csv("file_name.csv", sep=';', index=False)

d) 使用“to_excel”将数据框导出到excel文件。

data.to_excel("file_name.xls´)

显示数据

a) 正在打印前n行。如果没有给定，则默认显示5行。

data.head()

b) 打印最后“n”行。下面，显示最后7行。

data.tail(7)

基本信息：快速查看数据

a) 显示数据集的维度：总行数、列数。

data.shape

(891，12)

b) 显示变量类型。

data.dtypes

PassengerId      int64Survived         int64Pclass           int64Name            objectSex             objectAge            float64SibSp            int64Parch            int64Ticket          objectFare           float64Cabin           objectEmbarked        objectdtype: object

c) 按升序值显示变量类型。

data.dtypes.sort_values(ascending=True)

PassengerId      int64Survived         int64Pclass           int64SibSp            int64Parch            int64Age            float64Fare           float64Name            objectSex             objectTicket          objectCabin           objectEmbarked        objectdtype: object

d) 按类型对变量计数。

data.dtypes.value_counts()

object     5int64      5float64    2dtype: int64

e) 按升序值对每种类型计数。

data.dtypes.value_counts(ascending=True)

float64    2int64      5object     5dtype: int64

f) 以绝对值检查生存者与非生存者的数量。

data.Survived.value_counts()

0    5491    342Name: Survived, dtype: int64

g) 检查特征的比例，以百分比表示。

data.Survived.value_counts() / data.Survived.value_counts().sum()

与以下相同：

data.Survived.value_counts(normalize=True)

0    0.6161621    0.383838Name: Survived, dtype: float64

h) 检查特征的比例，以百分比表示，四舍五入。

data.Survived.value_counts(normalize=True).round(decimals=4) * 100

0    61.621    38.38Name: Survived, dtype: float64

i) 评估数据集中是否存在缺失值。

data.isnull().values.any()

True

j) 使用isnull()得到缺失值的数目。

data.isnull().sum()

PassengerId      0Survived         0Pclass           0Name

最低0.47元/天解锁文章

weixin_39518002

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
pandas describe函数_Pandas教程

作为每个数据科学家都非常熟悉和使用的最受欢迎和使用的工具之一，Pandas库在数据操作、分析和可视化方面非常出色为了帮助你完成这项任务并对Python编码更加自信，我用Pandas上一些最常用的函数和方法创建了本教程。我真心希望这对你有用。目录导入库导入/导出数据显示数据基本信息：快速查看数据基本统计调整数据布尔索引：loc布尔索引：iloc基本处理数据我们将研究“泰坦尼克号”的数据集，主要有两个...
复制链接

扫一扫