一.采集项目&数据仓库项目
1.1 采集
意义:以数据采集传递为主
技术:flume,kafka,dataX,maxwell
区分:
名称:基础核心数据 database
数据来源:企业业务数据
数据存储:核作用就是查找业务数据,行式存储,索引,不可以存储海量数据
数据价值:全企业全业务的正常运行
1.2 数据仓库
意义:以数据存储,计算为主
技术:Mysql ,Hdfs,Spark,Flink,Hive,MR
区分:
名称:数据仓库,货仓;货栈 data warehouse
数据来源:数据库数据进行加工
数据存储:统计分析数据(列式存储)
数据价值:将数据统计结果为企业的经营决策提供数据支持
数据仓库不是数据流转的终点,通过可视化展示出来
二.数据流转的过程
三.数据仓库的核心功能:
统计分析
Spark,MR,Flink 效率慢
SQL方式 效率快
spark on hive:spark解析SQL
hive on spark:hive 解析SQL
统计分析基本步骤(WordCount)
数据仓库同样遵循这个原则
数据仓库流程之解耦合
数据仓库流程之数据采集
数据仓库流程之可视/化
四.项目准备工作
项目技术如何选型?
框架版本发行如何选型(Apache,CDH,HDP)?
服务器使用物理机还是云主机?
如何确认集群规模?