1 pandas_profiling
每个数据科学家都必须掌握的最重要的技能之一是正确研究数据的能力。彻底的探索性数据分析 (EDA, Exploratory Data Analysis) 是必要的,与其重复繁琐的敲代码查看细节,不如来尝试一下这个利器:
pandas_profiling,简单方便易用,绝对良心!!!
pandas 的df.describe()函数虽然功能强大,但命令,步骤过于繁琐,
pandas_profiling扩展了pandas DataFrame的功能,可通过df.profile_report()进行快速数据分析。
对于每个列,以下统计信息(如果与列类型相关)将显示在交互式HTML报告中:
类型推断:检测数据帧中列的类型。
要点:类型,唯一值,缺失值
分位数统计信息,例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
描述性统计数据,例如均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度
最常使用的值
直方图
高相关变量Spearman,Pearson和Kendall矩阵的相关性突出显示
缺失值矩阵,计数,热图和缺失值树状图 等等
2 官方链接
https://github.com/pandas-profiling/pandas-profiling
~~
3 安装
3.1 pip
pip install pandas-profiling[notebook]
3.2 from Github
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip
4. 项目实例
4.1 样例数据走一个
代码样例:
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
df = pd.DataFrame(
np.random.rand(100, 5),
columns=["a", "b", "c", "d", "e"]
)
报告查看:
profile = ProfileReport(df, title="Pandas Profiling Report")
导出为html文件:
report.to_file('profile.html')
4.2 读取EXCEL数据进行分析
代码样例:
import pandas as pd
import pandas_profiling
data=pd.DataFrame(pd.read_excel(r'C:/Users/0-profiling/jjrs.xls',header=0, encoding='utf-8'))
报告查看:
profile =pandas_profiling.ProfileReport(data,title="Pandas Profiling Report")
profile
导出为html文件:
profile.to_file("data.html")
是不是很简单呢,
顺便推荐一个小福利吧,
当当开学大促尾声,一波优惠券等你最后薅羊毛:
优惠码 VBDDP5
AWTNTG
83ZHBR
MFHRT4
GRZXNS
NZVGYD
…
使用截止日期为9月7日,而且每个手机只能领一张,要抓紧啦,如果买得多,可以自己用一张,队友用一张!仅限当当app及小程序上使用!