Pandas DataFrame 的可视化工具大全

本文探讨了Python生态系统中用于增强pandas DataFrame可视化的工具,包括Qgrid、PivottableJs、PandasGUI、Tabloo、Dtale以及IDE变量查看器。这些工具提供了从简单的交互性到复杂的统计分析功能,帮助用户更有效地探索和过滤数据。文章通过实例展示了它们各自的特点和应用场景,以帮助读者选择适合自己的DataFrame分析工具。
摘要由CSDN通过智能技术生成

13a182ddfd67e50c72323fcced856983.png

简介

Excel的好处之一是它提供了一个直观和强大的图形界面来查看你的数据。相比之下,pandas + Jupyter notebook 提供了大量的编程能力,但在图形化显示和操作DataFrame视图方面能力有限。

在Python生态系统中,有几个工具被设计来填补这一空白。它们的复杂程度从简单的JavaScript库到复杂的、全功能的数据分析引擎不等。一个共同点是它们都提供了一种以图形格式查看和选择性地过滤数据的方法。从这个共同点出发,它们在设计和功能上有很大的不同。

本文将回顾这些DataFrame可视化选项中的几个,以便让你了解情况并评估哪些选项可能对你的分析过程有用。

背景介绍

对于这篇文章,我们将使用某销售数据集样本。下面是Jupyter notebook中的数据视图。

import pandas
url = 'https://github.com/chris1610/pbpython/blob/master/data/2018_Sales_Total_v2.xlsx?raw=True'
df = pd.read_excel(url)
df

ac648f1d9368fef8d2434c6b67bb5063.png

下面是Excel中一个类似的视图,对所有列都应用了过滤器。

77e423ba3fb231ed7dd01bbe374a8e2d.png

这种在Excel中熟悉的视图使你能够轻松地看到你的所有数据。你可以通过过滤和排序来检查数据,并在需要时深入了解细节。当你在探索一个新的数据集或解决一个现有数据集的新问题时,这种类型的功能是最有用的。

显然,对于数百万行的数据,这是不可行的。然而,即使你有大的数据集,并且是一个pandas专家,希望你仍然会把DataFrames转存到Excel,并查看数据的子集。

我使用Excel+python的部分原因是,在Excel中检查数据的特别能力要比普通的DataFrame视图好得多。

有了这个背景,让我们来看看在Excel中复制这种简单的查看能力的一些选项。

JavaScript工具

最简单的方法是使用一个JavaScript库来为Jupyter notebook中的DataFrame视图添加一些交互性。

Qgrid

我们要看的第一个工具是来自Quantopian的Qgrid。这个Jupyter notebook部件使用SlickGrid组件来为你的DataFrame添加互动性。

一旦它被安装,你可以显示一个支持排序和过滤数据的DataFrame版本。

import qgrid
import pandas
url = 'https://github.com/chris1610/pbpython/blob/master/data/2018_Sales_Total_v2.xlsx?raw=True'
df = pd.read_excel(url)
widget = qgrid.show_grid(df)
widget

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
pandas DataFramepandas中的一个重要数据结构,相当于表格数据模型,可以方便地处理和分析数据。它可以将数据以表格的形式进行组织和存储,并提供了丰富的功能来进行数据统计和分析。通过使用DataFrame,我们可以快速生成统计数据和数据图形来更好地理解和展示数据。 举个例子,我们可以使用pandas和numpy模拟一组数据,然后将其转换为DataFrame,并进行各种数据操作和分析。首先,我们可以使用以下代码生成一组随机数据并创建DataFrame: ``` import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(365, 4), index=pd.date_range('01/01/2018', periods=365), columns=list('ABCD')) ``` 这段代码使用numpy生成了一个365行4列的随机数矩阵,并将其转换为一个DataFrame对象。其中,index参数用于指定行索引,columns参数用于指定列索引。这样我们就创建了一个具有日期索引和ABCD四列的DataFrame。 接下来,我们可以对DataFrame进行各种数据分析和统计操作。比如,我们可以使用以下代码对数据进行累加求和,并绘制折线图来展示数据的趋势: ``` df = df.cumsum() import matplotlib.pyplot as plt df.plot() plt.show() ``` 这段代码首先使用cumsum()方法对DataFrame进行累加求和操作,然后使用matplotlib.pyplot库对数据进行可视化,并使用show()方法显示图形。这样我们就可以通过折线图直观地看到数据的趋势。 通过pandasDataFrame,我们可以方便地进行数据处理、统计和可视化分析,帮助我们更好地理解和利用数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值