在过去的二十年中,我们已经看到了从传统瀑布式开发方法的广泛转变,转而采用更加敏捷和迭代的方法来开发和使用软件。 如今,随处可见,敏捷开发原则正在帮助公司更好,更快地构建产品和流程。
那么,为什么这么多公司仍在努力使商业智能计划付诸实践? 因为尽管他们可能会采用敏捷方法来进行报表开发,但是他们的总体数据策略仍停留在过去。
以我的经验,当组织尝试一次将其分析程序进行一次现代化升级时,便会开始崩溃。 显而易见的方法是从数据质量开始。 毕竟,如果您的数据状况不佳,为什么还要做其他事情? 在向用户开放数据之前尝试确保所有数据(及其周围的系统)都是完美的,这是一种经典的瀑布式方法-这是一个大错误。
从瀑布喝水会淹死
当您优先考虑数据质量而不是访问时,会出现一些问题。 在短期内,这将使数据团队不堪重负对商业智能的临时请求。 业务用户不只是要等待一些大型系统的出现,他们现在需要答案。 这使团队无法专注于最高价值的数据分析项目,并使得很难看到树木茂盛的森林。
从长远来看,随着业务用户希望自己解决数据问题,影子IT开始成为一个问题。 这是瀑布式开发方法的必然结果,尤其是在数据项目中。 简而言之,如果您在整个开发过程中没有获得用户的反馈,就无法满足用户的需求;而在商业智能方面,用户的需求总是在变化。 当您用完美的数据构建完美的系统时,很有可能它已经过时了。
让我们清楚一点:毫无疑问,数据质量很重要。 这是现代商业智能程序的必要基础。 但是认为您需要先清理所有数据并构建完善的系统,然后才能充分利用它是一个错误。
新的数据管道围绕用户建立
就像构建和交付软件一样,考虑数据计划。 换句话说,采取一种更加敏捷和迭代的方法,将用户放在首位。 着重于使人们能够在需要时访问所需数据,清理数据并随需而建大型系统。 这是在数据和商业智能中更快,更可靠地成功的关键。
以前,当用户尝试回答特定问题时,他们必须依靠业务分析师来构建干净的数据模型,回答问题并生成报告。 但是,随着最新一波的自助服务和基于发现的商业智能工具的出现,数据团队不再构建报告或仪表板来为人们解答问题。 取而代之的是,它们以允许用户自行查找答案的方式提供对数据的访问。
在这个新世界中,不再需要等到所有数据准备就绪后再直接向人们提供数据,才有意义。 您可以准备所需的数据并将其传递。 同时,在清理新数据集时,可以随着时间的推移有机地用干净的数据回填数据仓库。 由于您计划始终进行清理,因此您最好从用户已经要求的数据开始。
这是一个示例:一位业务人员来到数据团队,并说:“我需要查看这六个产品在过去六个月中的收入。” 在传统的(即瀑布式)方法中,团队去查找所有相关数据,将其清理(因为某些数据将重复,不正确或不属于其中),并生成报告。 这位商人说:“太好了。 花了三天,但这是我所需要的。” 一个月后,他或她再次要求提供相同的报告,但这次是针对不同的地区,考察不同的产品线,并经过不同的时间。 数据团队再次外出并获取数据,进行清理,将其纳入报告中,并在三天后交付。 持续进行下去-每个月都会执行相同的低效流程-直到建立数据仓库并准备交付为止。
现在考虑一种将业务用户放在首位的迭代方法:提出请求,数据团队获取并清理数据,三天后将其放入现代自助服务数据平台中,然后说:“您来了。 您需要的数据在此平台上可用。 您可以自己查询并生成所需的所有报告。” 当用户下个月再次要求提供包含新的人口统计数据的相同报告时,团队将获取并清除新数据并将其添加到平台。 来自上个月请求的数据已经可用,因此仅需一天即可完成最新的请求。 一直以来,您的数据团队都会使用干净的高优先级数据来更新数据仓库。
在当今竞争异常激烈的商业环境中,一线员工越来越多地做出决策,以跟上业务发展的步伐。 那些将数据更快地发送到他们的团队并解决特定问题的公司,其表现将超过(甚至最终将其消灭)那些专注于数据完美化的公司。
From: https://www.infoworld.com/article/3300752/fixing-data-quality-first-you-re-doing-it-wrong.html