数据可视化和数据分析_如何验证数据,分析和数据可视化

数据可视化和数据分析

测试应用程序是一门成熟的学科,其工具可帮助质量保证团队开发和自动化功能测试,运行负载和性能测试,执行静态代码分析,将API与单元测试包装在一起,并针对已知的安全问题验证应用程序。 练习devop的团队可以通过将全部或部分自动化测试包括在CI / CD管道中来实施连续测试 ,并使用结果来确定是否应将构建交付给目标环境。

但是所有这些测试功能都可以轻松地忽略一组关键测试,这些测试对于任何应用程序处理或呈现数据,分析或数据可视化至关重要。

[InfoWorld的要点: 如何为您的应用选择正确的数据可视化工具 数据可视化:显示并不总是很有意义 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

数据准确且分析有效吗? 数据可视化显示的结果对主题专家有意义吗? 此外,随着团队对数据管道和数据库的增强,他们应该如何确保所做的更改不会损害下游应用程序或仪表板?

根据我在开发数据和分析丰富的应用程序方面的经验,与单元,功能,性能和安全性测试相比,这种类型的测试和验证通常是第二个想法。 由于以下几个原因,这也是一组比较困难的测试标准:

  • 对于通常不是主题专家的开发人员,测试人员和数据科学家而言,很难验证数据和分析,尤其是在如何使用仪表板和应用程序来开发见解或推动决策方面。
  • 数据本身是不完善的,存在已知且通常未知的数据质量问题。
  • 尝试捕获验证规则并非易事,因为通常有适用于大多数数据的通用规则,其次是适用于不同类型异常值的规则。 对于处理大量复杂数据集的应用程序和数据可视化而言,尝试为这些规则捕获和编码可能是一个困难而复杂的提议。
  • 活跃的数据驱动型组织正在加载新数据集并发展数据管道,以改善分析和决策能力。
  • 数据处理系统通常很复杂,具有用于集成,管理,处理,建模和交付结果的不同工具。

首次团队向利益相关者提供不良数据或无效分析通常是第一个警钟,可能需要其实践和工具来主动测试,诊断和解决这些数据问题。

了解数据沿袭和数据质量

最好从源头和通过在加载和处理数据时执行的各种数据转换来解决数据问题。 如果源数据存在新的数据质量问题,或者数据管道中引入了缺陷,则在数据处理管道中尽早识别并解决这些问题会更加有效。

有两种做法和相关工具可以解决这些问题。 开发人员和数据团队都可以在到达下游数据可视化和应用程序之前识别数据问题。

第一种实践涉及数据质量工具,该工具通常是提取,转换和加载(ETL)的附加功能,以及一些数据准备工具 。 数据质量工具有多种用途,但是它们可以做的一件事就是识别并纠正已知的数据问题。 一些更正可以自动执行,而其他更正则可以标记为例外,然后发送给数据管理员以手动更正或更新清理规则。

Informatica,Talend,IBM,Oracle,Microsoft和许多其他公司提供插入其ETL平台的数据质量工具,而Tableau,Alteryx,Paxata,Trifacta等公司的数据准备工具则具有数据质量功能。

第二种做法是数据沿袭 。 数据质量有助于识别数据问题,而数据沿袭则是跟踪数据和基础实现更改的一组实践和工具。 它们帮助用户了解在数据生命周期中的哪个位置执行了转换,计算或其他数据操作。 然后,可以使用数据沿袭工具,报告和文档追溯到数据管道,并帮助查明在数据流中引入缺陷或其他问题的位置。

使用黄金数据集验证数据可视化

分析,仪表板和数据可视化不能在静态数据源上运行。 数据正在以某种速度变化,与此同时,开发人员和数据科学家可能正在修改基础数据流,算法和可视化。 当您查看仪表板时,很难区分是程序性更改导致意外数据问题,还是与数据或数据质量更改有关。

隔离更改的一种方法是分离已知的黄金数据集,以帮助验证数据流,应用程序和数据可视化更改。 使用黄金数据集,测试团队可以定义单元,功能和性能测试,以验证和比较输出。 测试人员可以运行A / B测试,其中A是在引入实现更改之前的输出,而B是在进行更改之后的输出。 测试仅应显示预期区域中的输出差异,在该区域中数据流,模型,分析,业务逻辑或可视化发生了变化。

尽管这是一个相对简单的概念,但实现起来并非易事。

首先,团队必须创建黄金数据集,并决定哪些数据的数量和种类构成要测试的综合样本集。 它还可能需要多个数据集,以帮助验证不同的数据段,边界条件或分析模型。 一种可以帮助团队管理测试数据的工具是用于测试数据管理的Delphix。 其他供应商也提供此功能。

其次,一旦创建了黄金数据集,测试团队可能需要其他环境或工具来切换其环境中的基础数据源。 例如,测试人员可能想对黄金数据集进行测试,然后再次对作为生产数据副本的数据进行测试。 在云环境中运行并使用诸如PuppetChefAnsible之类的基础结构即代码工具的团队可以为这些不同的目的构建和拆除多个测试环境。

最后,测试团队需要工具来实施数据和结果的A / B测试。 我认识的许多团队都是通过编写SQL查询然后比较结果来手动完成此操作的。 如果数据集和测试很简单,则此方法可能就足够了。 但是,如果需要测试数据流中的多个点,则可能需要专用工具来集中测试查询,使其自动化并使用报告来验证更改。 一种工具QuerySurge是专门为针对数据流,数据库和某些商业智能工具实施A / B测试而设计的。

与主题专家高效合作

在某些时候,您必须让主题专家参与,以使用新的和更新的数据可视化并提供反馈。 他们必须帮助回答有关分析是否有效和有用的问题,以开发见解或帮助进行数据驱动的决策。

许多团队面临的问题是主题专家需要足够的时间来参与此测试。 当尝试频繁测试和部署更改时,这可能是一个重大挑战。

为了有效利用他们的时间,我建议进行三个单独的活动:

  • 在黄金数据集上实施尽可能多的数据质量,数据沿袭和A / B测试。 在让主题专家参与之前,请做出合理的努力来验证原始数据和计算数据是否正确。 这需要充满信心地完成,因此您可以向主题专家解释并理想地说明基础数据,转换和计算是准确的,因此可以确信他们不需要花费大量时间进行手动测试。
  • 设计数据可视化,以帮助主题专家审查和验证数据和分析。 某些可视化可以是A / B测试的输出,而其他可视化可以是暴露低级数据的可视化。 在实施大规模数据,算法,模型或可视化更改时,通常有助于适当地使用这些质量控制数据可视化,以帮助主题专家进行快速验证。
  • 您希望主题专家对完成的应用程序和数据可视化执行用户验收测试(UAT)。 当他们到达这一步时,他们应该完全确信数据和分析是有效的。

需要最后一步来确定可视化在探索数据和回答问题方面是否有效: 可视化是否易于使用 ? 是否有正确的尺寸可用于钻取数据? 可视化能否成功帮助回答其旨在回答的问题?

在此过程的这一点上,您正在测试用户体验并确保仪表板和应用程序得到优化。 当对基础数据和分析有理解和信任时,可以更有效地完成这一关键步骤。

翻译自: https://www.infoworld.com/article/3343178/how-to-validate-data-analytics-and-data-visualizations.html

数据可视化和数据分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值