python自动化办公 开工利器 pandas_profiling

1 pandas_profiling

每个数据科学家都必须掌握的最重要的技能之一是正确研究数据的能力。彻底的探索性数据分析 (EDA, Exploratory Data Analysis) 是必要的,与其重复繁琐的敲代码查看细节,不如来尝试一下这个利器:

pandas_profiling,简单方便易用,绝对良心!!!

pandas 的df.describe()函数虽然功能强大,但命令,步骤过于繁琐,
pandas_profiling扩展了pandas DataFrame的功能,可通过df.profile_report()进行快速数据分析。

对于每个列,以下统计信息(如果与列类型相关)将显示在交互式HTML报告中:
类型推断:检测数据帧中列的类型。
要点:类型,唯一值,缺失值
分位数统计信息,例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
描述性统计数据,例如均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度
最常使用的值
直方图
高相关变量Spearman,Pearson和Kendall矩阵的相关性突出显示
缺失值矩阵,计数,热图和缺失值树状图 等等

2 官方链接

https://github.com/pandas-profiling/pandas-profiling

~~

3 安装

3.1 pip

pip install pandas-profiling[notebook]

3.2 from Github

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

4. 项目实例

4.1 样例数据走一个

代码样例:

import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport

df = pd.DataFrame(
    np.random.rand(100, 5),
    columns=["a", "b", "c", "d", "e"]
)

报告查看:

profile = ProfileReport(df, title="Pandas Profiling Report")

导出为html文件:

report.to_file('profile.html')

4.2 读取EXCEL数据进行分析

代码样例:

import pandas as pd
import pandas_profiling
data=pd.DataFrame(pd.read_excel(r'C:/Users/0-profiling/jjrs.xls',header=0, encoding='utf-8'))

报告查看:

profile =pandas_profiling.ProfileReport(data,title="Pandas Profiling Report")
profile

导出为html文件:

profile.to_file("data.html")

是不是很简单呢,

顺便推荐一个小福利吧,
当当开学大促尾声,一波优惠券等你最后薅羊毛:

优惠码 VBDDP5
AWTNTG
83ZHBR
MFHRT4
GRZXNS
NZVGYD

使用截止日期为9月7日,而且每个手机只能领一张,要抓紧啦,如果买得多,可以自己用一张,队友用一张!仅限当当app及小程序上使用!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值