速看!Tableau Prep中的数据抽样与调整

Tableau Prep 帮助每个人快速、自信地组合、塑造和清理他们的数据进行分析。使用场景准备,您可以快速查看您的数据,并直接与之交互,以过滤、组合和清理——不管它的大小。为了使这成为可能,在执行任何清理操作之前,场景准备从数据源提取数据,这样您就可以看到更改的直接影响。

当连接到一个大的数据集时,场景准备可能会在默认情况下进行采样,将数据的子集带到流中,供您继续工作。这使得与分析所有数据并在工作时对更大的数据量应用更改相比,流更高效。当你运行流并生成输出时,场景准备将处理你的数据集中的所有记录。

让我们更仔细地看看在场景中采样是如何工作的,并回顾一下在处理大型数据集时如何利用这个功能。

数据采样违约

Tableau Prep 根据数据中显示的字段的数量和类型,准备快速地确定一个样本是否必要(以及在样本中引入的默认行数)。当一个步骤被添加到流中时,您可以看到数据被取样的指示,以及样本中包含的行数。


文本文件的输入步骤



干净的步骤显示的行数

在大多数情况下,可能会对100多万行的数据进行取样;默认的样本量是基于字段的数量和字段的数据类型,而不是记录的数量。拥有更多字段的数据集将导致具有较少记录(行)的样本,而不是具有较少字段的数据集。这意味着,如果你有300个字段,你的样本中会比你有5个字段的行数更少。数据类型也是一个因素。带有字符串数据类型的字段通常比数字数据类型大。因此,文本重的数据集在抽样时返回的行数比以数字为主的数据集要少。

尽管Tableau Prep 有帮助的抽样检查,但您可能会发现您需要调整样本,原因是:

1、需要一个更具代表性的示例(例如,默认设置只从2005年数据集覆盖2005-2018年的数据中提取数据)。

2、当拥有按日期排序的数据,或者使用的是通配符联合时,这是很常见的。

3、当您想要生成一个更小的样本(您很了解数据,并且希望尽可能地简化准备工作)。

4、您想要生成一个更大的样本或使用所有的数据(可能有太多的不规范,用一个小样本有效地清理数据)。


在采样前删除不需要的数据

一、在输入步骤中应用过滤器

如果您正在过滤数据以限制某个领域的值,那么在输入步骤中应用过滤器将提高性能,并帮助您从样本中获得更多信息。在下面的例子中,我注意到我的文件在2014年有多余的记录。如果我从清理步骤中过滤这些记录,那么在数据被取样之后,100 K行将被删除,这使得我在2015年只留下了50 K记录。但是如果我在输入步骤中过滤数据,过滤器将首先被应用,我将从2015年获得150 k的记录到我的样本中。


二、删除不需要的字段

如果我引入飞行数据(在上面的截图中使用),有几个字段大部分是null,我知道在我的分析中我不会使用它们。通过在输入步骤中去选择字段,数据永远不会被加载到场景中,这样可以提高性能,并允许更大的样本容量。

提示:

1、在输入步骤中所做的所有更改将导致重新生成数据样本。如果您有一个大的数据集,并且想要使用随机抽样,您可以通过将这些更改组合在一起来减少等待时间,或者在将抽样方法更改为随机之前。

2、如果您不确定在输入步骤中您可以过滤或删除什么,profile窗格是识别这些更改的好地方。让画面准备生成一个默认的样例,然后使用profile窗格来查看您可以删除哪些字段或值。只要确保你回到输入步骤来做这些调整。这将重新生成样本,其余的清理工作可以在优化的样本上完成。


使用数据样本选项

一旦您从数据集中修剪了不必要的字段和值,您可能仍然希望更改样品中的数据量,或者如何生成样品。

这些设置可以在输入步骤的Data Sample选项卡上找到:


数据量:这个选项决定了多少数据被带入到流中。

默认示例数量:默认样本配置中包含的数据量。这不是固定的行数,而是返回多少记录取决于您的数据的特征。

固定金额:指定在样本中包含的特定数量的记录,从默认值增加或减少。

使用所有的数据:如果您不想要对数据进行取样,那么您可以选择这个选项来强制显示您的数据中的所有行。

采样方法

这个选项决定如何从数据源中选择记录。

快速选择:默认情况下,数据库会尽可能快地返回请求的行数。这可能是根据数据排序的第一行,或者数据库在以前的查询中缓存到内存中的行。虽然这几乎总是比随机抽样更快的结果,但它可能会返回一个有偏差的样本(例如,如果记录按时间顺序排序,那么数据仅为一年的数据,而不是数据中的所有年份)。

随机样本:数据库查看数据集中的每一行,并随机返回记录,直到它达到所请求的行数,使样本更具代表性。然而,当数据首先被检索时,这将影响性能,因为必须对整个数据集进行扫描(而不仅仅是第一个N个结果,如快速选择)。如果快速选择的样本不包含您所需要的数据,执行一个通配符联合并从每个文件中获取记录,或者连接两个取样表返回很少的记录,那么这将非常有用。

Ps:如果你的数据是按时间排序的,那么随机抽样可以帮助你。


在Tableau Prep中查看您的输出并进行迭代

检查任何基于样本准备的数据集是很重要的。运行您的流程,并查看表桌面的输出。(注意,您应该运行完整的流程,而不是“在桌面环境中查看样本”,这样您就可以看到完整的数据了)。如果你看到样本中没有的出乎意料或不正确的值,你可以回到场景中来解决这个问题。这个示例可能会重新生成,但是您可以解决已知的问题,即使它们没有出现在您的示例中,通过创建计算或通过group和replace手动添加新值。

Tableau团队一直在研究一些特性和改进,使您可以更轻松地使用相关的样本来准备大型数据集。本软件免费试用版可关注https://www.evget.com/supplier/530


想了解更多BI资讯和软件推荐关注http://bigdata.evget.com/

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
合并,整形和清理数据以使用Tableau Prep进行分析 Tableau Prep更改了组织传统数据准备的执行方式。通过提供直观,直接的方式来组合,成形和清除数据Tableau Prep使分析人员和业务用户更容易更快地开始分析。 Tableau Prep由两种产品组成:用于构建数据流的Tableau Prep Builder和用于在组织内调度,监视和管理流的Tableau Prep Conductor。 三个协调的视图使您可以查看行级数据,每一列的配置文件以及整个数据准备过程。根据手头的任务选择要与之交互的视图。 如果要编辑值,请选择并直接编辑。更改您的联接类型,并立即查看结果。每次执行操作时,即使是数百万行的数据,您都可以立即看到数据更改。通过Tableau Prep Builder,您可以自由地重新排序步骤并进行实验,而不会产生任何后果。 使用智能功能解决常见的数据准备挑战。Tableau Prep Builder使用模糊聚类将重复任务(例如按发音分组)转变为一键式操作。 无论是数据库还是电子表格,都可以连接到本地或云数据。无需编写代码即可访问,合并和清除不同的数据Tableau Prep Builder会在可能的情况下智能地将操作推送到数据库,让您利用现有的数据库投资来提高流程执行性能。 留在您的分析流程。使用Tableau Desktop打开输出或通过Tableau Server或Tableau Online与他人共享输出很容易。轻松共享可减少摩擦,并帮助您弥合数据准备和分析之间的鸿沟,以获得更好的业务成果。 使用Tableau Prep Conductor,您可以轻松地在服务器环境发布和运行流。使用Tableau Server或Tableau Online安全共享您的数据源。创建一个环境,组织的每个人都可以使用准备好的最新数据。 安排您的流量在白天或晚上需要时运行。使您的数据准备过程自动化,以便始终准备好新鲜数据并准备进行分析。 使用当今Tableau Server上可用的相同工具监视流。使用“状态”页面,“管理员视图”和运行历史记录来查看整个服务器上的流的运行状况,以便您可以快速解决任何问题。通过主动警报始终知道您的流量是否健康。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值