1 导入数据
导入数据的方式见:
jupyter notebook笔记 visualpython_UQI-LIUWJ的博客-CSDN博客
import pandas as pd
# Visual Python: Data Analysis > File
titanic = pd.read_csv('https://raw.githubusercontent.com/visualpython/visualpython/main/visualpython/data/sample_csv/titanic.csv')
titanic
2 生成report
import pandas_profiling
profile = pandas_profiling.ProfileReport(titanic)
profile
3 report内容解析
3.1 1.Overview(数据概况)
包括列数、行数、缺失率、重复率、变量类型、内存以及对数据的最终结论warning
3.1.2 Variables(变量情况)
对每个变量进行描述性统计分析,包括缺失值、最小值、Q1、中位数、Q3、最大值、标准差、变异系数等,此外还有直观的直方图可以查看
3.1.3.Interactions(交互性分析)
对每两个变量进行图表展示
3.1.4.Correlations(相关性分析)
制作变量间的热力图,进行相关性展示
3.1.5 Missing Values(缺失值情况)
对全部变量进行缺失值图表展示