一行代码加速你的Pandas数据探索分析

本文3分钟,大幅提升分析数据效率

我们知道,pandas库为EDA提供了许多非常有用的功能。但是,在能够应用大多数功能之前,通常必须先从更通用的功能开始,例如df.describe()函数。

比如以分析泰坦尼克号数据为例,常规操作是首先import库,看下数据格式,字段,以及统计数据缺失值,数据发布等。

import pandas as pd
import numpy as np
df = pd.read_csv('/Users/my/titanic/train.csv')

看下前几行数据

# 看下前几行数据
df.head()

输出:

df.head()展示5条数据

df.describe()

输出:

df.describe()展示的统计值

对于每个新数据集,最初的EDA工作流程通常都非常相似。现在,让我们用pandas-profiling进行同样并且更加方便的操作:

重点是一行命令就能搞定

pandas_profiling.ProfileReport(df)
输出:

从上可以看到输出提供了一些有用的指标,例如缺失值的百分比和数量以及我们之前看到的描述性统计信息。

不同类型的变量有不同展示的方式。

例如由于“age”是一个数值变量,因此使用直方图可视化其分布可以告诉我们该变量似乎是右偏的。

对于类别变量,不是去机械地计算均值,最小值和最大值,而是计算分类变量的类值计数。

在每个特定变量的EDA之下,pandas分析将同时输出Pearson和Spearman相关矩阵。

总之,pandas-profiling提供了一些常用的功能,尤其是主要目标是快速而又肮脏地理解数据或以可视化数据与他人共享您的初始EDA的时候,就非常方便高效了。

so,enjoy it!

https://github.com/pandas-profiling

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值