本文3分钟,大幅提升分析数据效率
我们知道,pandas库为EDA提供了许多非常有用的功能。但是,在能够应用大多数功能之前,通常必须先从更通用的功能开始,例如df.describe()函数。
比如以分析泰坦尼克号数据为例,常规操作是首先import库,看下数据格式,字段,以及统计数据缺失值,数据发布等。
import pandas as pd
import numpy as np
df = pd.read_csv('/Users/my/titanic/train.csv')
看下前几行数据
# 看下前几行数据
df.head()
输出:
df.head()展示5条数据
df.describe()
输出:
df.describe()展示的统计值
对于每个新数据集,最初的EDA工作流程通常都非常相似。现在,让我们用pandas-profiling进行同样并且更加方便的操作:
重点是一行命令就能搞定
pandas_profiling.ProfileReport(df)
输出:
从上可以看到输出提供了一些有用的指标,例如缺失值的百分比和数量以及我们之前看到的描述性统计信息。
不同类型的变量有不同展示的方式。
例如由于“age”是一个数值变量,因此使用直方图可视化其分布可以告诉我们该变量似乎是右偏的。
对于类别变量,不是去机械地计算均值,最小值和最大值,而是计算分类变量的类值计数。
在每个特定变量的EDA之下,pandas分析将同时输出Pearson和Spearman相关矩阵。
总之,pandas-profiling提供了一些常用的功能,尤其是主要目标是快速而又肮脏地理解数据或以可视化数据与他人共享您的初始EDA的时候,就非常方便高效了。
so,enjoy it!
https://github.com/pandas-profiling