1.数据仓库-概览

数据仓库目前总共有4个部分:
1)ETL
2)数据模型
3)调度
4)可视化
这里写图片描述
一:ETL
1)目前ETL 主要使用kettle、Python、sql。
这里写图片描述
Kettle 在目前仓库的作用,更多的是从源库将数据抽取到数据仓库当中。
Sql 主要是数据的聚合和清洗
Python 主要数据的清洗。

目前源数据库分为mongoDB 和 mysql, 所以在抽取这二者的数据库时,会用到kettle不同的组件处理。

2)Kettle 简单介绍:
Kettle 的使用总共分为3个部分
这里写图片描述
* Spoon 图形界面方式启动作业和转换设计器。
* Kitchen 命令行方式执行作业(job)。
* pan 命令行方式执行转换 (ktr)。
* 资源库 用于存储制作的脚本。

Job(作业) 和 Transformation(ktr, 转换)的区别:
Transformation专注于数据的ETL;Job范围比较广,可以是Transformation,也可以是Mail、Sql、Shell、FTP甚至是Job。
简单地说,是包含与被包含的关系。

二:数据模型
目前主流的数据仓库模型是如下四种:
这里写图片描述

数据数据仓库使用的是维度模型。
维度模型又分为星型模型 和 雪花模型,而我们使用的是星型模型。

三:调度azkaban
azkaban 是LinkedIn 开源的一款调度工作, 使用调度工具可以避免以下相关问题。
这里写图片描述
四:可视化
目前使用的阿里的quickBI 来展示数据。
quickBI 数据可视化流程如下图所示
这里写图片描述
了解更多请拓展阅读:
quickBI介绍: https://help.aliyun.com/document_detail/57698.html?spm=5176.doc33813.6.540.A2zYJs
示例介绍:https://help.aliyun.com/document_detail/54785.html?spm=5176.doc57698.6.555.stEs2U
以及视频介绍:https://help.aliyun.com/video_list/53717.html?spm=5176.doc54785.6.636.vaXubM

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值