一行代码加速你的Pandas数据探索分析

最新推荐文章于 2023-08-30 18:49:45 发布

加大码先生

最新推荐文章于 2023-08-30 18:49:45 发布

阅读量349

点赞数

分类专栏： Python 文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/laoxuan2011/article/details/106088714

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文3分钟，大幅提升分析数据效率

我们知道，pandas库为EDA提供了许多非常有用的功能。但是，在能够应用大多数功能之前，通常必须先从更通用的功能开始，例如df.describe()函数。

比如以分析泰坦尼克号数据为例，常规操作是首先import库，看下数据格式，字段，以及统计数据缺失值，数据发布等。

import pandas as pd
import numpy as np
df = pd.read_csv('/Users/my/titanic/train.csv')

看下前几行数据

# 看下前几行数据
df.head()

输出：

df.head()展示5条数据

df.describe()

输出：

df.describe()展示的统计值

对于每个新数据集，最初的EDA工作流程通常都非常相似。现在，让我们用pandas-profiling进行同样并且更加方便的操作：

重点是一行命令就能搞定

pandas_profiling.ProfileReport(df)

输出：

从上可以看到输出提供了一些有用的指标，例如缺失值的百分比和数量以及我们之前看到的描述性统计信息。

不同类型的变量有不同展示的方式。

例如由于“age”是一个数值变量，因此使用直方图可视化其分布可以告诉我们该变量似乎是右偏的。

对于类别变量，不是去机械地计算均值，最小值和最大值，而是计算分类变量的类值计数。

在每个特定变量的EDA之下，pandas分析将同时输出Pearson和Spearman相关矩阵。

总之，pandas-profiling提供了一些常用的功能，尤其是主要目标是快速而又肮脏地理解数据或以可视化数据与他人共享您的初始EDA的时候，就非常方便高效了。

so，enjoy it！

https://github.com/pandas-profiling

加大码先生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一行代码加速你的Pandas数据探索分析

本文3分钟，大幅提升分析数据效率我们知道，pandas库为EDA提供了许多非常有用的功能。但是，在能够应用大多数功能之前，通常必须先从更通用的功能开始，例如df.describe()函数。比如以分析泰坦尼克号数据为例，常规操作是首先import库，看下数据格式，字段，以及统计数据缺失值，数据发布等。import pandas as pdimport numpy as npdf = pd.read_csv('/Users/my/titanic/train.csv')看下前几行数据.
复制链接

扫一扫

专栏目录

加大码先生 CSDN认证博客专家 CSDN认证企业博客

码龄12年

68: 原创

13万+: 周排名

162万+: 总排名

49万+: 访问

: 等级

2793: 积分

112: 粉丝

168: 获赞

58: 评论

564: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习中的线性和非线性判断
2301_78331698: ReLU因为是符号函数，所以是非线性吗？
解决GitHub的raw.githubusercontent.com无法连接问题
CSDN-Ada助手: 非常感谢你分享解决GitHub的raw.githubusercontent.com无法连接问题的经验，这对遇到类似问题的用户非常有帮助。我觉得下一篇博客可以写关于如何使用Git进行团队协作的技术文章，对于团队开发的小伙伴们应该会非常有用。相信你的经验和技巧一定会对其他用户产生很大的帮助，期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
解决GitHub的raw.githubusercontent.com无法连接问题
云风橪: 第三步添加以下内容是怎样的一个界面，我动不了，只能强制退出
解决GitHub的raw.githubusercontent.com无法连接问题
孚亭: 按etc键，再输入:wq即刻
解决GitHub的raw.githubusercontent.com无法连接问题
赫本的猫689: 请问一下该怎么保存退出呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。