【零代码数据可视化】Pygwalker拖拽式分析完全指南：从入门到高级案例

本文链接：https://blog.csdn.net/maoyu_dual/article/details/147570279

Pygwalker：拖拽式数据探索与可视化

一、Pygwalker 简介

1.1 什么是 Pygwalker

Pygwalker 是一个基于 Python 的交互式数据可视化和探索工具，它允许用户通过简单的拖拽操作来创建复杂的数据可视化图表。其名称来源于"Python"和"Graphic Walker"的组合，意味着在 Python 环境中以图形化方式探索数据。

Pygwalker 的核心理念是降低数据可视化的门槛，使分析人员能够快速从数据中获取洞察，而无需编写大量代码。它将 Grammar of Graphics（图形语法）的强大功能与直观的拖放界面相结合，为用户提供了灵活而高效的数据探索体验。

1.2 核心特点与优势

拖拽式操作界面：无需编写复杂的可视化代码，通过简单拖拽即可创建专业水准的图表
Grammar of Graphics 支持：基于强大的图形语法理论，支持丰富的可视化表达
与 Pandas 深度集成：原生支持 Pandas DataFrame，无缝衔接数据处理流程
交互式探索：支持筛选、钻取、缩放等交互操作，实现数据的多维度探索
丰富的图表类型：提供柱状图、折线图、散点图、热力图等多种可视化类型
Jupyter 支持：完美集成于 Jupyter Notebook 和 JupyterLab 环境
导出与分享：支持将可视化结果导出为静态图片或交互式 HTML
数据透视功能：内置数据透视和聚合能力，快速实现数据汇总分析

1.3 适用场景

Pygwalker 特别适合以下应用场景：

探索性数据分析 (EDA)：快速理解数据分布、关系和模式
业务数据分析：为业务人员提供低代码数据探索工具
数据仪表盘原型：快速创建可视化原型，验证设计思路
数据教学与演示：在教学过程中直观地展示数据概念
即时数据报告：快速创建并分享数据分析结果
非技术人员数据探索：为不熟悉编程的用户提供直观工具

二、安装与环境配置

2.1 安装 Pygwalker

Pygwalker 可以通过 pip 或 conda 方便地安装：

# 使用 pip 安装
pip install pygwalker

# 或使用 conda 安装
conda install -c conda-forge pygwalker

2.2 依赖库与兼容性

Pygwalker 的主要依赖包括：

pandas: 数据处理和分析
ipywidgets: 交互式小部件支持
notebook 或 jupyterlab: Jupyter 环境支持

为确保最佳兼容性，推荐以下版本配置：

# 完整依赖安装
pip install pygwalker pandas>=1.0.0 ipywidgets>=7.6.0 notebook>=6.0.0

# 如果使用 JupyterLab，还需要安装
pip install jupyterlab>=3.0.0

2.3 在不同环境中配置 Pygwalker

在 Jupyter Notebook 中配置

# 确保 notebook 已安装 ipywidgets 扩展
!jupyter nbextension enable --py widgetsnbextension

在 JupyterLab 中配置

# 安装 JupyterLab 的 ipywidgets 扩展
!jupyter labextension install @jupyter-widgets/jupyterlab-manager

在 VSCode 中配置

在 VSCode 中使用 Pygwalker 需要安装 Jupyter 扩展，并确保正确配置了 Python 解释器：

在 VSCode 中安装 “Jupyter” 扩展
选择具有 Pygwalker 的 Python 环境
创建或打开 .ipynb 文件来使用 Pygwalker

在 Streamlit 中配置

# 安装 Streamlit 支持
pip install streamlit
pip install streamlit-pygwalker

三、基础使用指南

3.1 加载数据并初始化 Pygwalker

import pandas as pd
import pygwalker as pyg

# 加载示例数据
df = pd.read_csv('sales_data.csv')

# 初始化 Pygwalker 并显示界面
walker = pyg.walk(df)

3.2 基本界面介绍

Pygwalker 的界面主要由以下几个部分组成：

数据字段面板：显示所有可用的数据列，按数据类型分类
画布区域：创建和展示可视化图表的主要区域
编码通道：用于定义视觉映射的区域，包括 X 轴、Y 轴、颜色、大小等
图表类型选择器：选择不同的可视化类型
筛选面板：创建数据筛选条件
属性面板：调整图表的视觉属性，如颜色、标签、坐标轴等

3.3 创建第一个可视化

创建简单的柱状图：

从数据字段面板中拖动一个分类字段（如"Category"）到 X 轴编码通道
拖动一个数值字段（如"Sales"）到 Y 轴编码通道
选择"柱状图"作为图表类型

# 在代码中等效的操作是：
pyg.walk(df, spec={
   
    "mark": "bar",
    "encoding": {
   
        "x": {
   "field": "Category", "type": "nominal"},
        "y": {
   "field": "Sales", "type": "quantitative"}
    }
})

创建散点图：

拖动一个数值字段（如"Price"）到 X 轴编码通道
拖动另一个数值字段（如"Sales"）到 Y 轴编码通道
选择"散点图"作为图表类型
可选：拖动一个分类字段（如"Region"）到颜色编码通道

3.4 调整图表属性

创建图表后，可以通过属性面板调整各种视觉效果：

标题与标签：修改图表标题、坐标轴标签和图例标题
颜色方案：更改图表的颜色面板和配色方案
坐标轴设置：调整坐标轴范围、刻度和网格线
图例位置：调整图例的位置和显示方式
标记大小：更改数据点或条形的大小

四、高级数据探索

4.1 多维数据分析

使用分面（Facet）进行分组比较：

拖动一个分类字段到"行"或"列"编码通道
系统会自动创建多个子图，按照该字段的不同值分组显示

pyg.walk(df, spec={
   
    "mark": "bar",
    "encoding": {
   
        "x": {
   "field": "Product", "type": "nominal"},
        "y": {
   "field": "Sales", "type": "quantitative"},
        "column": {
   "field": "Region", "type": "nominal"}
    }
})

使用颜色编码不同维度：

创建基本图表后，将一个分类字段拖到"颜色"编码通道
数据点将按照该字段的不同值使用不同颜色显示

4.2 交互式筛选与钻取

创建筛选器：

点击筛选面板的"+"按钮
选择要筛选的字段
设置筛选条件（范围、等于、包含等）
应用筛选，图表会实时更新

使用拖拽进行视图缩放：

在图表上按住鼠标左键并拖动，创建一个选择框
释放鼠标按钮，视图会放大到选定区域
双击图表恢复原始视图

创建详细信息提示：

将字段拖到"提示"编码通道
鼠标悬停在数据点上时，会显示这些字段的详细信息

4.3 高级聚合与计算

自定义聚合方法：

将一个数值字段拖到 Y 轴编码通道
点击字段名称旁的下拉菜单
选择聚合方法：计数、求和、平均值、最大值、最小值等

创建计算字段：

点击数据字段面板顶部的"+"按钮
输入计算表达式，例如 Sales / Quantity
为新字段命名，如"单价"
新创建的字段可以像原始字段一样使用

透视表分析：

切换到"表格"视图模式，将字段拖拽到行、列和值区域，创建交互式透视表。

4.4 图表组合与布局

创建多图表仪表板：

点击界面顶部的"添加图表"按钮
在新创建的画布上创建不同的可视化
调整每个图表的大小和位置

链接多个图表：

创建多个图表后，点击"链接视图"按钮
选择要链接的图表
选择链接字段
此后在一个图表上的选择会自动筛选其他链接的图表

五、数据可视化类型详解

5.1 基础图表类型

柱状图与条形图：

pyg.walk(df, spec={
   
    "mark": "bar",  # 或使用 "bar_horizontal" 创建条形图
    "encoding": {
   
        "x": {
   "field": "Category", "type": "nominal"},
        "y": {
   "field": "Sales", "type": "quantitative"}
    }
})

折线图：

pyg.walk(df, spec={
   
    "mark": "line",
    "encoding": {
   
        "x": {
   "field": "Date", "type": "temporal"},
        "y": {
   "field": "Sales", "type": "quantitative"},
        "color": {
   "field": "Region", "type": "nominal"}
    }
})

散点图：

pyg.walk(df, spec={
   
    "mark": "point",
    "encoding": {
   
        "x": {
   "field": "Price", "type": "quantitative"},
        "y": {
   "field": "Sales", "type": "quantitative"},
        "color": {
   "field": "Category", "type": "nominal"},
        "size": {
   "field": "Quantity", "type": "quantitative"}
    }
})

饼图：

pyg.walk(df, spec={
   
    "mark": "arc",
    "encoding": {
   
        "theta": {
   "field": "Sales", "type": "quantitative"},
        "color": {
   "field": "Category", "type": "nominal"}
    }
})

5.2 高级图表类型

热力图：

pyg.walk(df, spec={
   
    "mark": "rect",
    "encoding": {
   
        "x": {
   "field": "Day", "type": "nominal"},
        "y": {
   "field": "Hour", "type": "ordinal"},
        "color": {
   "field": "Sales", "type": "quantitative"}
    }
})

箱线图：

pyg.walk(df, spec={
   
    "mark": "boxplot",
    "encoding": {
   
        "x": {
   "field": "Category", "type": "nominal"},
        "y": {
   "field": "Sales", "type": "quantitative"}
    }
})

面积图：

pyg.walk(df, spec={
   
    "mark": "area",<