用一行Python进行数据收集探索

最新推荐文章于 2024-08-16 16:53:41 发布

大咖爱爬虫

最新推荐文章于 2024-08-16 16:53:41 发布

阅读量485

点赞数

分类专栏： Python技巧 Python资讯大数据文章标签： Python

本文链接：https://blog.csdn.net/ajian6/article/details/102250018

版权

53 篇文章 3 订阅

订阅专栏

22 篇文章 1 订阅

订阅专栏

20 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Pandas库进行简易的数据分析，并强调通过Pandas Profiling软件包，仅用1行Python代码就能生成详细的统计报告，包括类型、唯一值、缺失值、分位数、描述性统计、相关性矩阵等，这对于快速获取数据洞察十分有用。推荐读者亲自尝试这个强大的工具。

摘要由CSDN通过智能技术生成

任何使用P ython数据的人都会熟悉Pandas包。P andas是大多数行和列格式数据的go-to包。如果你没有Pandas，请确保在终端中使用pip install安装：

pip install pandas.
Python学习qq群：10667510，送全套爬虫学习资料与教程~

现在，让我们看看Pandas包中的默认方法可以做些什么：

以下内容写给不知道上面发生了什么的新手：

任何Pandas数据帧都有一个 .descripe（） 返回上面的输出的方法。但是，此方法中没有注意到分类变量。在上面的示例中，输出中完全省略了“ method ”列。

让我们看看能不能解决这个问题。

如果我告诉你仅用3行Python就可以产生以下统计信息，你会怎么想？但其实，如果不计算imports的话，总体上只用1行就够。

（功能列表直接来自Pandas Profiling GitHub）

好吧，我们可以使用Pandas Profiling软件包！要安装Pandas Profiling软件包，只需在终端中使用pip install即可：

pip install pandas_profiling

经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻，但这对于快速获得数据的第一手印象肯定是有用的：

我们首先看到的是概述，其中提供了关于数据和变量的一些非常高级的统计信息，以及变量之间的高相关性、高偏态性的警告等。

但这还不算什么。向下滚动我们会发现报告有多个部分，如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的，所以我制作了一个gif：

我强烈建议大家自己去探索一下这个包的特性，毕竟，这里提到的只是一行代码，在将来的数据分析中，这个包可能会对你非常有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

原文链接： https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d

关注

专栏目录