layui 表格数据源_蓝盟IT外包,大数据体系结构的基础知识|数据仓库|数据源|谷歌|数据湖...

  目录
数据架构的三个组件:大于datalake-datawarehouse大于Data Mart
在每个组件中使用的工具
案例研究:从BigQuery (数据仓库)到Google Sheets (数据市场)的计划和自动数据馈送的构建
文末脚注
数据架构的三个组件:大于datalake-datawarehouse大于Data Mart
“数据湖”、“数据仓库”和“数据集市”是数据平台体系结构的典型组成部分。 按此顺序处理业务生成的数据,设定为创建其他数据的意思。
三个组件负责三种不同的功能:
Data Lake拥有业务生成的数据的原始副本。 如果有,原始数据的处理应该是最少的。 否则,最终发现部分数据处理错误时,无法追溯修复该错误。
数据仓库:存储在受控数据模型中处理和结构化的数据,反映最终使用数据的全局(不特定)方向。 数据通常是表格形式。
数据集市:保存子部分或汇总数据集,以使用特定的业务功能,如特定的业务部门和特定的地理区域。 典型的例子是,在准备了特定核心业务的KPI摘要后,用BI工具进行可视化。 特别是,如果用户想定期和经常更新数据市场,则在仓库之后准备这些独立的组件是值得的。 相反,如果用户只想对特定数据集进行一次即席分析,则可以跳过此部分。
我们为什么需要分成这三个部分?

  因为不同的过程阶段要求不同。

  

  在数据湖阶段,我们希望数据接近原始数据,但数据仓库的目的是通过明确的维护计划使数据集更结构化、管理和拥有明确的所有权。 在数据仓库中,我还希望数据库类型是面向分析的而不是面向事务的。 另一方面,除了可能使用数据旅行最终输出的技术人员以外,数据市场应该很容易访问。
不同用途的系统组件通常在不同的时间重新设计。 而且,配置松散连接的组件对将来的维护和规模扩大有好处。
数据工程师和数据科学家如何处理这三个组成部分?
大致来说,数据工程师涵盖了从业务中提取的数据到数据湖,在数据仓库中构建数据模型,构建ETL流水线的过程。 数据科学家从数据仓库中提取数据,建立数据市场,进一步推动业务应用程序和价值创造。当然,数据工程师和数据科学家之间的这种角色分配是理想的,许多公司并不只是为了满足这个定义而采用这两个人。 事实上,他们的职务说明经常重叠。
三要素法以外的新趋势
最后,最不重要的一点是,由这三部分组成的方法存在着20多年的传统方法,新技术层出不穷。 例如,“数据虚拟化”是一个可以对数据源进行一站式数据管理和操作接口的想法,无论其格式和物理位置如何。
在每个组件中使用的工具
现在我们了解了三个数据平台组件的概念。 而且,人们用什么工具? 根据这个《数据平台指南》(日语),这里有几个想法。
数据湖/仓库
数据湖和数据仓库有以下选项。
数据集市/BI工具

  以下工具可用作数据集市和BI解决方案。 选择取决于业务背景。 贵公司熟悉什么工具(例如Tableau员工还是Power BI员工?聚合数据的大小(例如,如果数据大小很小,Excel和Google Sheets等解决方案为什么会实现目标?您使用的是什么数据仓库解决方案(例如,如果数据仓库位于BigQuery上,Google DataStudio在Google圈子里有自然的联系,因此是一个简单的解决方案)?

  文/上海蓝盟 IT外包专家

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值