pandas_profiling基于pandas的DataFrame数据类型,可以简单快速地进行探索性数据分析。
对于数据集的每一列,pandas_profiling会提供以下统计信息:
- 概要:数据类型,唯一值,缺失值,内存大小
- 分位数统计:最小值、最大值、中位数、Q1、Q3、最大值,值域,四分位
- 描述性统计:均值、众数、标准差、绝对中位差、变异系数、峰值、偏度系数
- 最频繁出现的值,直方图/柱状图
- 相关性分析可视化:突出强相关的变量,Spearman, Pearson矩阵相关性色阶图
并且这个报告可以导出为HTML,非常方便查看。
import pandas as pd
from pandas_profiling import ProfileReport
#from pandas_profiling.utils.cache import cache_file
# 数据读取
df = pd.read_csv("./data/titanic.csv")
# 根据数据生成报告
profile = ProfileReport(df, title="Titanic Dataset", explorative=True)
profile.to_file("titanic_pf_report.html")