作者 | Roc
来源 | 数据札记倌(ID:Data_Groom)
欢迎客官光临,这里主要给大家介绍一下pandas-profiling库,一行代码,生成超详细的数据分析报告,数据分析师的福音。
主菜之前先送两个小菜给大家~
1、爬虫的吸星大法,下面几句的搭配应用应该可以下载万物了
import re
import ele
import requests
import bs4
2、Tqdm堪称python的监视器
Tqdm 是 Python 进度条库,堪称贴心小棉袄,时刻告诉你任务进度,监控运行状态,强迫症患者最爱。
好嘞~小菜已经准备完毕,接下来介绍一下今天的主菜,干净整洁,应该算是分析全席的清炒时蔬了。
3、pandas-profiling,一行代码生成超详细数据分析报告,实乃我等数据分析从业者的福音哈哈~
「特别感谢知乎高楠的分享」
一般来说,面对一个数据集,我们需要做一些探索性分析 (Exploratory data analysis),这个过程繁琐而冗杂,每个数据分析师肯定有自己常用的一些配料,这里介绍一个非常简单有趣的方法。为了防止这个菜与楠姐炒出来完全一致,换一个最近建模数据集为例
我们传统方法是先用Dataframe.describe():
通过这种方法,我们只能大致判断各个变量的分布以及target的情况,但是无法获取更详细的信息,如果我们需要进一步探索数据,查看变量相关性等,我们就可以利用pandas-profiling来填饱肚子啦~
然后一键储存为html格式,非常方便:
import pandas_profiling
data.profile_report(title='Model Dataset')
profile = data.profile_report(title='Model Dataset')
profile.to_file(output_file='model_report.html')
具体生成的报告如下:
最后,虽然pandas-profiling这个库并非完全智能,但是一份基础的数据报告,可以为我们节省大量时间(少敲代码),数据分析师们赶紧用起来吧~
(*本文为 Python大本营转载文章,转载请联系作者)◆
精彩推荐
◆
由易观携手CSDN联合主办的第三届易观算法大赛正在火热进行中!冠军奖3万元,每团队不超过5人参赛。
本次比赛主要预测访问平台的相关事件的PV,UV流量(包括Web端,移动端等),大赛将会提供相应事件的流量数据,以及对应时间段内的所有事件明细表和用户属性表等数据,进行模型训练,并用训练好的模型预测规定日期范围内的事件流量。
推荐阅读5大必知的图算法,附Python代码实现
吐血整理!140种Python标准库、第三方库和外部工具都有了
如何用爬虫技术帮助孩子秒到心仪的幼儿园(基础篇)
Python传奇:30年崛起之路
2019年最新华为、BAT、美团、头条、滴滴面试题目及答案汇总
阿里巴巴杨群:高并发场景下Python的性能挑战