【Tableau系列】Tableau Prep简介及基本使用
前言
在当今数据驱动的时代,高效的数据准备是数据分析成功的关键。Tableau Prep作为一款强大的数据准备工具,凭借其直观的界面和强大的功能,为用户提供了高效、便捷的数据处理解决方案。本文将带你快速了解Tableau Prep的基础知识和基本使用方法,开启高效数据准备之旅。
一、Tableau Prep简介
在数据分析领域,数据准备是整个分析流程的基础,但往往也是最耗时、最繁琐的环节。数据的来源多样、格式复杂,常常存在缺失值、错误值、重复值等问题,这些问题如果不妥善处理,将直接影响数据分析的准确性和可靠性。为了帮助数据分析师和业务人员高效地完成数据准备工作,Tableau公司推出了一款强大的数据准备工具——Tableau Prep。
Tableau Prep是一款直观、简洁且智能的数据准备工具,它通过可视化界面让用户能够轻松地合并、清理、组织和分享数据。无论用户是否具备专业的数据准备技能,都可以借助Tableau Prep快速上手,完成复杂的数据准备工作。Tableau Prep由Prep Builder和Prep Conductor两款产品组成,其中Prep Builder专注于帮助用户快速、自信地合并、调整和清理数据以进行分析,实现自助式数据准备
二、主要特点
- 可视化数据准备:通过直观的界面操作数据,无需编写复杂代码
- 流程导向:以流程图形式展示数据处理步骤,逻辑清晰可见
- 与Tableau无缝集成:可直接将处理好的数据发布到Tableau Server/Online或保存为文件
三、数据处理操作及实例
1、数据连接
Tableau Prep支持连接多种数据源
1)文件类型:
- Excel (.xlsx, .xls)
- 文本文件 (.csv, .txt)
- JSON
- PDF (需Tableau 2020.2及以上版本)
2)数据库
- SQL Server, MySQL, PostgreSQL
- Oracle, Snowflake
- Google BigQuery, Amazon Redshift
- 其他ODBC/JDBC兼容数据库
3)云服务
- Salesforce
- Google Sheets
- Tableau Server/Online数据源
点击“+”号选择需要处理文件的类型
如下图所示,选中要处理的数据,拖拽至数据预览区
2、清洗功能
1)处理缺失值
- 识别空值/Null值
- 填充默认值或插值
- 删除包含空值的记录
点击数据右侧“+”号,添加清理步骤
按图片中的顺序点击,可以实现对空值的处理
2)数据类型转换
- 字符串↔数字↔日期转换
- 地理角色分配
点击图片中的数据类型,即可做转换
3)文本处理
-
修剪空格
-
大小写转换
-
字符串拆分/合并
4)异常值处理
- 基于统计方法识别离群值
- 设定值范围过滤
5)去重处理
-
识别完全重复记录
-
基于关键字段去重
三、并集(Union)功能
合并结构相似的多张表
-
自动并集:拖放多张结构相同的表到流程中,Tableau Prep自动按列名匹配合并
-
手动并集:处理列名不同的情况;手动指定列对应关系;处理列数不同的情况(填充空值)
-
应用场景:合并多个月份/年度的分表数据;整合多个分支机构的数据;组合相同结构的多个数据源
四、联接(Join)功能
关联不同结构的表格
1)联接类型:
-
L内联接(只保留匹配记录)
-
左联接(保留左表全部记录)
-
右联接(保留右表全部记录)
-
全外联接(保留所有记录)
2)联接条件:
- 单字段匹配
- 多字段组合匹配
- 模糊匹配(需配合计算字段)
3)联接结果验证:
- 查看匹配/不匹配记录数
- 检查联接后的数据样本
4)应用场景:
- 关联事实表与维度表
- 补充缺失的属性信息
- 创建宽表(wide table)分析
五、转置(Pivot)功能
1)列转行(纵向装置)
- 将多列合并为一列
- 创建新的分类字段
- 适合处理“宽表”变“长表”
2)行转列(横向转置)
- 将分类字段值转为列名
- 聚合相应数值
- 适合创建交叉表
六、聚合
1)按分类字段汇总数值
2)支持各种聚合函数(SUM,AVG,COUNT等)
七、采样
1)快速预览大数据集的处理效果
2)提高处理效率
八、输出
点击“+”号选择“输出”
选择位置保存,以便后续的可视化处理
总结
总结来说,Tableau Prep 以其直观的界面和强大的数据预处理功能,为用户提供了高效、灵活的数据清洗与整合方案。无论是数据新手还是资深分析师,都能通过拖拽操作快速完成复杂的数据准备流程,从而将更多精力聚焦于分析与洞察。掌握 Tableau Prep,无疑是提升数据工作效率、释放数据价值的关键一步。