python库_有没有一些让你相见恨晚的Python库?

d80ca493ea1b46baea3b64cfff4fe1d3.png

作者 | Roc

来源 | 数据札记倌(ID:Data_Groom)

欢迎客官光临,这里主要给大家介绍一下pandas-profiling库,一行代码,生成超详细的数据分析报告,数据分析师的福音。

主菜之前先送两个小菜给大家~

1、爬虫的吸星大法,下面几句的搭配应用应该可以下载万物了

import re

import ele

import requests

import bs4

2、Tqdm堪称python的监视器

Tqdm 是 Python 进度条库,堪称贴心小棉袄,时刻告诉你任务进度,监控运行状态,强迫症患者最爱。

65ee9624f1803758754fbe0dd9795f48.png

好嘞~小菜已经准备完毕,接下来介绍一下今天的主菜,干净整洁,应该算是分析全席的清炒时蔬了。

3、pandas-profiling,一行代码生成超详细数据分析报告,实乃我等数据分析从业者的福音哈哈~

「特别感谢知乎高楠的分享」

一般来说,面对一个数据集,我们需要做一些探索性分析 (Exploratory data analysis),这个过程繁琐而冗杂,每个数据分析师肯定有自己常用的一些配料,这里介绍一个非常简单有趣的方法。为了防止这个菜与楠姐炒出来完全一致,换一个最近建模数据集为例

我们传统方法是先用Dataframe.describe():

a08f8e1ebc90c1997a140aba56fe1f62.png

通过这种方法,我们只能大致判断各个变量的分布以及target的情况,但是无法获取更详细的信息,如果我们需要进一步探索数据,查看变量相关性等,我们就可以利用pandas-profiling来填饱肚子啦~

然后一键储存为html格式,非常方便:

import pandas_profiling  data.profile_report(title='Model Dataset')profile = data.profile_report(title='Model Dataset')profile.to_file(output_file='model_report.html')

具体生成的报告如下:

d68df4553e6564819a3a626da44bf064.png

26cc6906bccf6e4e2f68ead74ed10ac9.png

最后,虽然pandas-profiling这个库并非完全智能,但是一份基础的数据报告,可以为我们节省大量时间(少敲代码),数据分析师们赶紧用起来吧~

(*本文为 Python大本营转载文章,转载请联系作者)

精彩推荐

由易观携手CSDN联合主办的第三届易观算法大赛正在火热进行中!冠军奖3万元,每团队不超过5人参赛。

本次比赛主要预测访问平台的相关事件的PV,UV流量(包括Web端,移动端等),大赛将会提供相应事件的流量数据,以及对应时间段内的所有事件明细表和用户属性表等数据,进行模型训练,并用训练好的模型预测规定日期范围内的事件流量。

d80ca493ea1b46baea3b64cfff4fe1d3.png 推荐阅读
  • 5大必知的图算法,附Python代码实现

  • 吐血整理!140种Python标准库、第三方库和外部工具都有了

  • 如何用爬虫技术帮助孩子秒到心仪的幼儿园(基础篇)

  • Python传奇:30年崛起之路

  • 2019年最新华为、BAT、美团、头条、滴滴面试题目及答案汇总

  • 阿里巴巴杨群:高并发场景下Python的性能挑战

6735f70cb7276ab3f51bb5901bd29681.png 你点的每个“在看”,我都认真当成了喜欢
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值