anaconda3卸载python_(一)搞定数据分析,只要一行Python代码!(建议收藏)

506cc91769a6ef7d062bb23f08ce5f5c.png

点击上方 蓝字关注我们

说在前面

非常感谢大家的踊跃支持,使我们的上篇推文《Jupyter Notebook——也许你总在使用她,但也许你从未尝试过去了解她?》在不到一周的时间里点赞数成功突破了50。为此,我们Python希望社肝出了我们《关于jupyter notebook那些你不知道的神奇操作》系列推文之——

(一)搞定数据分析,只要一行Python代码!(建议收藏)

对于从事数据科学相关行业的人员来说,如何简单高效地实现对数据集的初步分析是后续一切工作的重要基础。今天我们就为大家介绍一种基于python的数据分析神器:pandas_profiling。

本文构成大纲如下图所示,全文约3500字,完成阅读约2分钟。

文末有惊喜~

18f8033490df76276ae7daead902cd29.png

一、一些传统的数据分析方法

先看下数据大致是什么样的呢?

# 导入数据import pandas as pd
data = 
pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

data.head()

(向左滑动查看完整代码)

bd3ec2936292a991e684323b201319ca.png

再来对数据进行统计描述:

data.describe()

f1230d6d3f3074c4b6e9575120360d5b.png

最后来看看变量的信息和缺失情况吧:

data.info()

9850ea61a77422b4ede7fb049ffff94f.png

尽管上面这些对数据进行了初步的分析并给出了一些基本的数据概况。但在处理大型数据集的时候能起到的帮助非常有限,如何才能在比赛或者工程应用中全面、高效、深入地了解数据集呢?

二、数据分析神器--pandas profiling

与之相对的,使用pandas profiling 提供的。

他是基于scipymatplotlibseaborn等工具的展示。

  • ● 要点:类型,唯一值,缺失值

  • ●分位数统计信息:例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围

  • ●描述性统计数据:例如平均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度

  • ●最常使用的值:

  • ●直方图:

  • ●高相关变量Spearman,Pearson和Kendall矩阵的相关性突出显示

  • ●缺失值矩阵,计数,热图和缺失值树状图

戳下方 5ed6be75f0f16dd357b91437f2348cf6.png打开新知识

三、包库的安装

# 利用终端命令安装

(向左滑动查看完整代码)

注意:在安装这个包的过程后,如果运行在以下案例中出现报错。这很有可能是包的版本导致的可执行以下命令解决:

(小编当初也是百思不得其解,哪里出了问题,百度了很久也没发现相关信息。几近崩溃准备卸载软件重头再来之时,在一个国外分享交流网站上终于查到问题源头所在)

pip uninstall pandas-profiling
pip install pandas-profiling[notebook,html

如果觉得pip下载速度较缓慢,可更改为使用国内镜像。关于这方面资料网上很多,在此权且略过。

如安装过程遇到了其他任何问题,欢迎交流或者加入我们的微信交流群~   包你学废!

四、案例展示

天才林纳斯(Linus Torvalds)曾有一句广为流传的名言:

废话少说。放码过来!

            猛戳图片,即可查看中文翻译噢~

话不多说,砸门直接上实例吧。让我们祭出古老而又经典的泰坦尼克号数据,来展示一下这的强大能力吧。

# 导入包库和数据
import pandas as pd
from pandas_profiling import ProfileReport
data = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

(向左滑动查看完整代码)

只需一行代码即可生成对应的数据分析报告,这份数据报告十分详细,包括了所有必要的图表。

# 生成并展示你的报告
profile = ProfileReport(data,title="这是一份来自python希望社的教程,你可以编辑这里更改标题")
profile 

     (向左滑动查看完整代码)

得到展示结果如下所示:

75233a6b35b2cf6d1703b5afb4acc02c.gif

你还可以通过下面的代码将结果导出为一个交互式的 HTML 文件:

profile = df.profile_report(title='Pandas Profiling Report')
profile.to_file(outputfile="Titanic data profiling.html")
五、进一步的深入探索。

下面的示例代码加载了explorative configuration file(探索性配置文件),它包含了许多用于文本(长度分布、unicode信息),文件(文件大小,创建时间)和图像(尺寸、exif信息)的功能。

profile = ProfileReport(data,title="Title!", explorative=True)

除了上述的简单命令外,你还可以添加一些其他除了标题以外的参数进行你个性化的配置。

  • title(str):报告的标题。

  • pool_size(int):线程池中的工人数。设置为零时,它设置为可用的CPU数量(默认为0)。

  • progress_bar(bool):如果为True,pandas-profiling将显示进度条。

六、其他编辑器的配置

估计这会儿有聪明的同学会问了:那如何在pycharm上实现这种操作呢?

别担心,pandas_profiling 还提供了pycahrm的配置方法。你只需要按着下面的步骤一步一步来就好了

配置方法:

安装包库,方法同上

找到你的padnas_profiling的.exe可执行文件

# mac OS/Linux/BSD  默认情况下
(example) /usr/local/bin/pandas_profiling     

# Windows 默认情况下
(example) C:\ProgramData\Anaconda3\Scripts\pandas_profiling.exe

# 以小编为例
G:\Anaconda\Scripts\pandas_profiling.exe

Tips: 获取文件绝对路径

右键该文件---属性---安全---对象名称

  • Pycharm:file---seting---Tools---External Tools---+

  • 进行如下配置:

    • Name:  pandas_profiling

    • Program:  粘贴进步骤二中的位置

    • Arguments: “ $ FilePath $”“ $ FileDir $/$FileNameWithoutAllExtensions $ _report.html”

    • Working directory: $ ProjectFileDir $

使用方法:

在完成配置后,同样滴。我们先来运行以下代码:

# 导入包库和数据
import pandas as pd
from pandas_profiling import ProfileReport
data = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
# 生成你的报告 (pycharm并不能直接展示)
profile = ProfileReport(data,title="这是一份来自python希望社的教程,你可以编辑这里更改标题")   

(向左滑动查看完整代码)

运行结束后,我们只需要在代码栏左侧项目栏里右键external_tool中的pandas_profiling即可生成对应的EDA,并以html格式默认保存在同一路径之下。对于其他编辑器你也可以通过发送请求提供相应的支持,具体细节可参考官方文档。

cd5db5fb43542308db0802b5b0d7ec1e.png

至此,我们就已经全部完成了关于pandas_profiling的安装、介绍及使用。各位观众还在犹豫什么呢?赶快抄起你的电脑来试试吧~

END 

本篇推文点赞数过501ff441cf082e41ee2301868f00196424.png,Python希望社将第一时间推出我们系列推文:

《关于jupyter notebook那些你不知道的神奇操作》第二期

往期文章

Jupyter Notebook——也许你总在使用她,但也许你从未尝试过去了解她?

Python 3.9 安装及测试使用

Python初印象

e2680bace642f83e0c4637baf3baa7ab.gif PYTHON 82382622815652f6b59b2125e255221a.png c71a433c45ef8e094cc5b50ca0dfbc4d.png长按关注 点击关注不迷路 满满干货为你出 微信公众号:Python希望社

点个在看 你最好看

73183436eea7513750e7e4a1694b1e6d.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值