首先确定数据质量? 你这样做是错的

在过去的二十年中,我们已经看到了从传统瀑布式开发方法的广泛转变,转而采用更加敏捷和迭代的方法来开发和使用软件。 如今,随处可见,敏捷开发原则正在帮助公司更好,更快地构建产品和流程。

那么,为什么这么多公司仍在努力使商业智能计划付诸实践? 因为尽管他们可能会采用敏捷方法来进行报表开发,但是他们的总体数据策略仍停留在过去。

以我的经验,当组织尝试一次将其分析程序进行一次现代化升级时,便会开始崩溃。 显而易见的方法是从数据质量开始。 毕竟,如果您的数据状况不佳,为什么还要做其他事情? 在向用户开放数据之前尝试确保所有数据(及其周围的系统)都是完美的,这是一种经典的瀑布式方法-这是一个大错误。

从瀑布喝水会淹死

当您优先考虑数据质量而不是访问时,会出现一些问题。 在短期内,这将使数据团队不堪重负对商业智能的临时请求。 业务用户不只是要等待一些大型系统的出现,他们现在需要答案。 这使团队无法专注于最高价值的数据分析项目,并使得很难看到树木茂盛的森林。

从长远来看,随着业务用户希望自己解决数据问题,影子IT开始成为一个问题。 这是瀑布式开发方法的必然结果,尤其是在数据项目中。 简而言之,如果您在整个开发过程中没有获得用户的反馈,就无法满足用户的需求;而在商业智能方面,用户的需求总是在变化。 当您用完美的数据构建完美的系统时,很有可能它已经过时了。

让我们清楚一点:毫无疑问,数据质量很重要。 这是现代商业智能程序的必要基础。 但是认为您需要先清理所有数据并构建完善的系统,然后才能充分利用它是一个错误。

新的数据管道围绕用户建立

就像构建和交付软件一样,考虑数据计划。 换句话说,采取一种更加敏捷和迭代的方法,将用户放在首位。 着重于使人们能够在需要时访问所需数据,清理数据并随需而建大型系统。 这是在数据和商业智能中更快,更可靠地成功的关键。

以前,当用户尝试回答特定问题时,他们必须依靠业务分析师来构建干净的数据模型,回答问题并生成报告。 但是,随着最新一波的自助服务和基于发现的商业智能工具的出现,数据团队不再构建报告或仪表板来为人们解答问题。 取而代之的是,它们以允许用户自行查找答案的方式提供对数据的访问。

在这个新世界中,不再需要等到所有数据准备就绪后再直接向人们提供数据,才有意义。 您可以准备所需的数据并将其传递。 同时,在清理新数据集时,可以随着时间的推移有机地用干净的数据回填数据仓库。 由于您计划始终进行清理,因此您最好从用户已经要求的数据开始。

这是一个示例:一位业务人员来到数据团队,并说:“我需要查看这六个产品在过去六个月中的收入。” 在传统的(即瀑布式)方法中,团队去查找所有相关数据,将其清理(因为某些数据将重复,不正确或不属于其中),并生成报告。 这位商人说:“太好了。 花了三天,但这是我所需要的。” 一个月后,他或她再次要求提供相同的报告,但这次是针对不同的地区,考察不同的产品线,并经过不同的时间。 数据团队再次外出并获取数据,进行清理,将其纳入报告中,并在三天后交付。 持续进行下去-每个月都会执行相同的低效流程-直到建立数据仓库并准备交付为止。

现在考虑一种将业务用户放在首位的迭代方法:提出请求,数据团队获取并清理数据,三天后将其放入现代自助服务数据平台中,然后说:“您来了。 您需要的数据在此平台上可用。 您可以自己查询并生成所需的所有报告。” 当用户下个月再次要求提供包含新的人口统计数据的相同报告时,团队将获取并清除新数据并将其添加到平台。 来自上个月请求的数据已经可用,因此仅需一天即可完成最新的请求。 一直以来,您的数据团队都会使用干净的高优先级数据来更新数据仓库。

在当今竞争异常激烈的商业环境中,一线员工越来越多地做出决策,以跟上业务发展的步伐。 那些将数据更快地发送到他们的团队并解决特定问题的公司,其表现将超过(甚至最终将其消灭)那些专注于数据完美化的公司。

From: https://www.infoworld.com/article/3300752/fixing-data-quality-first-you-re-doing-it-wrong.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Shell脚本数据质量验证是一种通过编写Shell脚本来对数据进行质量检查和验证的方法。数据质量验证是指对数据进行检查、评估和确认,以确保数据的准确性、完整性、一致性和可靠性。 Shell脚本数据质量验证通常涉及以下步骤: 1. 数据清理和预处理:首先,Shell脚本将清洗和预处理数据,去除重复项、缺失数据和异常数据等。 2. 数据格式验证:接下来,Shell脚本会对数据的格式进行验证,比如确保日期、时间、数字等字段的格式符合规定的格式。 3. 数据逻辑验证:Shell脚本还会对数据的逻辑关系进行验证,比如检查数据之间的关联性、一致性和完整性等。 4. 数据完整性验证:Shell脚本会验证数据的完整性,确保数据的所有必需字段都存在且没有缺失。 5. 数据准确性验证:Shell脚本会验证数据的准确性,比对数据与实际情况的一致性,检查数据是否存在误或异常值。 6. 数据查询和可视化:最后,Shell脚本可以通过调用数据库查询语句或使用数据可视化工具来查询和展示数据质量验证结果,以便用户进行进一步的分析和决策。 通过Shell脚本数据质量验证,可以及时发现数据质量问题,提高数据的可信度和可靠性,从而为后续的数据分析和业务决策提供可靠的数据基础。同时,由于Shell脚本的灵活性和可定制性,可以根据具体业务需求来编写相应的数据质量验证规则和逻辑,满足不同场景下的数据质量验证需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值