数据虚拟化是解决几个问题的解决方案。这种解决方案正在蓬勃发展,同比增长强劲。但我们首先从定义开始。
Kezako?
数据虚拟化是在数据源和数据使用者之间插入数据访问层以促进访问的过程。在实践中,我们有一种SQL请求程序作为工具,它能够查询非常异构的数据源,从传统的SQL数据库到文本或PDF文件,或像Kafka这样的流式源。简而言之,您拥有数据,可以查询数据,并在此数据之间生成连接。实际上,您可以提供统一且完整的数据视图,即使它在多个系统之间“爆炸”。最重要的是,您拥有缓存和查询优化器,可以在性能方面最小化对源系统的影响。当然,您有一个数据目录,可帮助您找到IT基础架构中所有数据的方式。由此我们可以推导出两个主要用例。
集成用例
这是不可避免地想到的第一个用例。一家有点错过“数字”转变的大型银行正在努力为其客户提供一个包含所有相关数据的门户网站。旧的异构甚至是异国情调的系统,无法同时支持成千上万的客户,这是该银行的基础。使用数据虚拟化解决方案,数据暴露的速度与您必须使用Hibernate在Java中执行简单的DAO类一样快。您可以添加连接,使用数据目录搜索数据,编写请求,在API中公开它们,以及拥有公开数据所需的所有资产。这就是全部,就这么简单。制作API,如果您知道在何处查找数据,则需要5分钟。当然,您不会实现插入和更新,但请记住,读数占客户端门户上80%的请求,并且CQRS模式不存在!您将通过API实现插入和更新,这肯定会调用现有的事务!
这样可以节省大量时间,因为不需要通过ETL或Change Data Capture输出数据,这需要您了解所有数据。
数据用例
两个典型的用例是虚拟数据仓库和虚拟数据湖。
关于虚拟数据仓库,它的设置速度比传统数据仓库快得多。对于传统的数据仓库,您需要设置许多ETL流,如果新的业务需要需要新的ETL流,您已经编写了规范,发送它,等待开发人员完成,然后测试。无论如何,你失去了一个月。对于虚拟数据仓库,您可以提出请求,而且,而且,就是这样!
然后,使用虚拟数据湖的情况允许您合并数据,无论其来源如何。它避免了您不得不询问有关数据如何集成的许多问题:它使得数据可用和城市化变得容易。许多数据湖项目在v-cycle方法中已经丢失,城市化数据的创建将花费你一到两年的时间。
最后,通过数据目录,您可以向企业,业务分析师,数据科学家和BI专家提供数据访问。简而言之,您正在普及数据访问。