大数据数仓理论

一.采集项目&数据仓库项目

1.1 采集

意义:以数据采集传递为主  

技术:flume,kafka,dataX,maxwell      

区分:

        名称:基础核心数据 database

        数据来源:企业业务数据

        数据存储:核作用就是查找业务数据,行式存储,索引,不可以存储海量数据

        数据价值:全企业全业务的正常运行

1.2 数据仓库

意义:以数据存储,计算为主

技术:Mysql ,Hdfs,Spark,Flink,Hive,MR

区分:

        名称:数据仓库,货仓;货栈  data warehouse

        数据来源:数据库数据进行加工

        数据存储:统计分析数据(列式存储)

        数据价值:将数据统计结果为企业的经营决策提供数据支持

                          数据仓库不是数据流转的终点,通过可视化展示出来

二.数据流转的过程

三.数据仓库的核心功能:

统计分析

        Spark,MR,Flink   效率慢

        SQL方式   效率快

spark on hive:spark解析SQL

hive on spark:hive 解析SQL

统计分析基本步骤(WordCount)

数据仓库同样遵循这个原则

数据仓库流程之解耦合

数据仓库流程之数据采集

数据仓库流程之可视/化

四.项目准备工作

项目技术如何选型?

框架版本发行如何选型(Apache,CDH,HDP)?

服务器使用物理机还是云主机?

如何确认集群规模?

五.技术选型

六.系统数据流程图

七.框架发行版本选型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值