tableau 字段去重_tableau prep学习

Tableau Prep 是一款强大的数据清理和组织工具,适用于ETL过程。本文介绍了如何使用Prep进行数据连接、数据清洗、数据深整理和数据导出。重点讲解了数据清洗的字段处理、样本设置、数据类型修正以及筛选、清理和拆分等操作,以及数据结构转化如数据合并、聚合和转置。此外,文章还讨论了数据去重、数据聚合在不同粒度下的应用及其重要性,帮助读者掌握数据准备的关键步骤。
摘要由CSDN通过智能技术生成

Tableau Prep 是一款直观、简洁和智能的工具,可有效清理和组织数据以供分析。

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关系到BI项目的成败。”

prep的功能可以分为数据连接和初次加工、数据清洗和深度加工、数据发布三个阶段,所有的数据过程基本都要完整经过这个过程。我们可以把数据看作是生病的病人,Prep帮助我们诊断明显的或者隐藏的各种病情并完成治疗,同时还能根据需要做各种保健,之后送出医院。数据整理我们分为两个步骤,(针对数据错误)数据清理和(针对需求)数据结构转化,因此就成了以下四个部分。

数据连接与初步处理

数据连接是分析的起点,这里包含了数据连接、样本设置和轻处理三个环节。

1、Tableau desktop和Prep都可以轻松连接你的数据源,不管是本地文件还是数据库文件。本地文件可以使用通配符创建并集,服务器可以使用初始化SQL简化数据连接的过程。

2、作为大数据分析产品,我们可以基于样本做分析,之后在总体上运行样本的处理规则,因此使用样本可以加速处理过程。快速抽样是选择数据源的最后的数据,提取更快,而随机抽样更加全面。

3、字段也需要处理,最常见的是字段的数据类型错误,比如身份证应该是字符而非数字,这里可以点击字段左上角的abc标记轻松修改。 同时,并非所有的数据字段都是分析必备的,因此可以移除字段;而使用筛选器可以排除或者保留字段中的特定数据,确保分析时的数据准确,并减少分析范围,比如仅筛选最近三年的订单信息。

4、在本地数据的数据连接阶段,我们还会遇到多个文件的并集合并Union,在连接面板中,建议使用通配符来完成自动匹配。

三、数据清洗与数据深整理

这一部分是Prep的关键,数据会生病,我们要诊断并针对性治疗。完整的数据整理可以分为数据清理(错误)和数据结构转化(优化)。

1、数据清洗 Data Clean

数据清理可以分为字段名称的清洗和数据的清洗两个部分,前者针对构成分析的维度和度量名称,后者针对明细数据。

字段的整理主要是修改字段名称(比如“单位”改为“单位名称”)、按照分析工具的要求赋予字段特定角色(比如给“省”赋予“地理角色”,从而生成地图),以及基本的字段操作(字段移除和复制等)。

而数据的清理相对而言更加重要,也更加复杂。最简单的是直接双击修改数据——适用于少量的数据异常;如果批量的数据异常,则推荐使用“分组和替换”批量修改,比如按照字符来替换。除此之外还有三大操作:筛选器、清理和拆分。分别用于数据的保留或排除、批量清理字符和拆分字段。而所有的这些操作,其实都是在数据上执行的“计算”。如果遇到了这些快捷方式无法完成的问题,就可以使用计算字段来实现,比如常见的left、mid函数,makedate函数等等。

2、数据转化

上面说的是修改数据错误,另一类型的数据操作是数据没有错,但是结构需要根据分析的需要调整——注意是分析的需要,所以在不同情况下调整自然会有不同,无所谓对错,而在于需求。

常见的按需调整有三类:数据合并(并集或连接)、数据聚合(更改数据层次)、数据转置(更改行列结构)。特别是数据聚合,常用于修改数据的颗粒度(或者称之为数据级别),比如把100万行的数据根据需要调整为1万行的数据颗粒度,从而加速分析过程。

在prep中,可以通过可视化的拖拽轻松完成这些操作,并能使用颜色直观地查看数据结果。

四、数据导出

最后,我们要分享整理的结果,要么保存为本地文件,要么通过数据源发布到服务器以供更多人使用,Tableau Prep都可以轻松实现。

而且,Prep可以让我们在任何一个整理的环节跳转到desktop预览,从而查看整理的结果。

一个思维导图,基本理清了所有的prep脉络,按照这个思路练习一遍,即可以轻松掌握。

一.简要介绍

拖放或双击把数据表放到数据流面板中,然后使用Tableau中熟悉的操作,比如筛选、分割、重命名、转动、混合和并集等操作清洗和整理数据。

你的每一步操作都会在数据流面板中直观地反馈。而且Prep会记录每一步操作,从而确保后期检查你的工作并在任意一点做出修改。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值