有没有一些让你相见恨晚的Python库?

640?wx_fmt=jpeg


作者 | Roc

来源 | 数据札记倌(ID:Data_Groom)

欢迎客官光临,这里主要给大家介绍一下pandas-profiling库,一行代码,生成超详细的数据分析报告,数据分析师的福音。

主菜之前先送两个小菜给大家~

1、爬虫的吸星大法,下面几句的搭配应用应该可以下载万物了

import re

import ele

import requests

import bs4

2、Tqdm堪称python的监视器

Tqdm 是 Python 进度条库,堪称贴心小棉袄,时刻告诉你任务进度,监控运行状态,强迫症患者最爱。

640?wx_fmt=jpeg

好嘞~小菜已经准备完毕,接下来介绍一下今天的主菜,干净整洁,应该算是分析全席的清炒时蔬了。

3、pandas-profiling,一行代码生成超详细数据分析报告,实乃我等数据分析从业者的福音哈哈~

「特别感谢知乎高楠的分享」


一般来说,面对一个数据集,我们需要做一些探索性分析 (Exploratory data analysis),这个过程繁琐而冗杂,每个数据分析师肯定有自己常用的一些配料,这里介绍一个非常简单有趣的方法。为了防止这个菜与楠姐炒出来完全一致,换一个最近建模数据集为例


我们传统方法是先用Dataframe.describe():

640?wx_fmt=jpeg

通过这种方法,我们只能大致判断各个变量的分布以及target的情况,但是无法获取更详细的信息,如果我们需要进一步探索数据,查看变量相关性等,我们就可以利用pandas-profiling来填饱肚子啦~


然后一键储存为html格式,非常方便:

import pandas_profiling  	
data.profile_report(title='Model Dataset')	

	
profile = data.profile_report(title='Model Dataset')	
profile.to_file(output_file='model_report.html')

具体生成的报告如下:

640?wx_fmt=png

640?wx_fmt=png

最后,虽然pandas-profiling这个库并非完全智能,但是一份基础的数据报告,可以为我们节省大量时间(少敲代码),数据分析师们赶紧用起来吧~

另外在知乎有非常多有趣的python库的讨论,有兴趣的可以去看看,阅读原文进行传送

(*本文为 Python大本营转载文章,转载请联系作者)

精彩推荐


由易观携手CSDN联合主办的第三届易观算法大赛正在火热进行中!冠军奖3万元,每团队不超过5人参赛。

本次比赛主要预测访问平台的相关事件的PV,UV流量(包括Web端,移动端等),大赛将会提供相应事件的流量数据,以及对应时间段内的所有事件明细表和用户属性表等数据,进行模型训练,并用训练好的模型预测规定日期范围内的事件流量。

640?wx_fmt=jpeg

推荐阅读
640?wx_fmt=png
你点的每个“在看”,我都认真当成了喜欢
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值