pandas describe函数_Pandas教程

f539bf17185101ebeefe7c4ba52c1982.png

作为每个数据科学家都非常熟悉和使用的最受欢迎和使用的工具之一,Pandas库在数据操作、分析和可视化方面非常出色

为了帮助你完成这项任务并对Python编码更加自信,我用Pandas上一些最常用的函数和方法创建了本教程。我真心希望这对你有用。

目录

  1. 导入库
  2. 导入/导出数据
  3. 显示数据
  4. 基本信息:快速查看数据
  5. 基本统计
  6. 调整数据
  7. 布尔索引:loc
  8. 布尔索引:iloc
  9. 基本处理数据

我们将研究“泰坦尼克号”的数据集,主要有两个原因:(1)很可能你已经对它很熟悉了;(2)它非常小,很简单

泰坦尼克号的数据集可以在这里下载:https://bit.ly/33tOJ2S

导入库

为了我们的目的,“Pandas”库是必须导入的

import pandas as pd

导入/导出数据

“泰坦尼克号数据集”指定为“data”。

a) 使用read_csv将csv文件导入。你应该在文件中添加数据的分隔符。

data = pd.read_csv("file_name.csv", sep=';')

b) 使用read_excel从excel文件读取数据。

data = pd.read_excel('file_name.xls')

c) 将数据帧导出到csv文件,使用to_csv

data.to_csv("file_name.csv", sep=';', index=False)

d) 使用“to_excel”将数据框导出到excel文件。

data.to_excel("file_name.xls´)

显示数据

a) 正在打印前n行。如果没有给定,则默认显示5行。

data.head()
05fc55a84f3e7790913fa508dd10f86d.png

b) 打印最后“n”行。下面,显示最后7行。

data.tail(7)
c5bb0043b732c5a897d9ee986dccfd7f.png

基本信息:快速查看数据

a) 显示数据集的维度:总行数、列数。

data.shape

(891,12)

b) 显示变量类型。

data.dtypes
PassengerId      int64Survived         int64Pclass           int64Name            objectSex             objectAge            float64SibSp            int64Parch            int64Ticket          objectFare           float64Cabin           objectEmbarked        objectdtype: object

c) 按升序值显示变量类型。

data.dtypes.sort_values(ascending=True)
PassengerId      int64Survived         int64Pclass           int64SibSp            int64Parch            int64Age            float64Fare           float64Name            objectSex             objectTicket          objectCabin           objectEmbarked        objectdtype: object

d) 按类型对变量计数。

data.dtypes.value_counts()
object     5int64      5float64    2dtype: int64

e) 按升序值对每种类型计数。

data.dtypes.value_counts(ascending=True)
float64    2int64      5object     5dtype: int64

f) 以绝对值检查生存者与非生存者的数量。

data.Survived.value_counts()
0    5491    342Name: Survived, dtype: int64

g) 检查特征的比例,以百分比表示。

data.Survived.value_counts() / data.Survived.value_counts().sum()

与以下相同:

data.Survived.value_counts(normalize=True)
0    0.6161621    0.383838Name: Survived, dtype: float64

h) 检查特征的比例,以百分比表示,四舍五入。

data.Survived.value_counts(normalize=True).round(decimals=4) * 100
0    61.621    38.38Name: Survived, dtype: float64

i) 评估数据集中是否存在缺失值。

data.isnull().values.any()
True

j) 使用isnull()得到缺失值的数目。

data.isnull().sum()
PassengerId      0Survived         0Pclass           0Name      
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值