熟悉Linux 对Hadoop大数据体系有了解 对Flink大数据体系有一定了解
腾讯云EMR:优点 高效(一站式部署) 便捷(没有繁琐的配置文件,由腾讯云部署)灵活(可以选择腾讯云提供的服务,也可以自行安装搭建服务)
hadoop flink实时运算 kafka 分层 hbase(基于hdfs磁盘存储) phoenix皮肤 可以在hbase上写sql来存储维表 redis内存数据库,加速维表查询 clickhouse放置dws层数据供查询
学习过程:
了解项目需求,结合需求完成架构设计
了解电商数据结构
选购EMR
电商业务数据选择
数据采集
目标:
根据数仓建模理论搭建完整数据仓库,包括:需求分析、架构设计、数据存储、建模、计算、输出、展示等流程
学习腾讯云EMR各服务组件的具体使用以及组件之间的配置联动
项目需求:
1业务数据传输通道搭建
2数据仓库维度建模
事实数据和维度数据
3任务调度
4数据可视化
项目技术如何选型 框架版本如何选型 服务器使用物理机还是云主机 如何确认集群规模
数据采集传输:kafka ODS层 flink-cdc(增量同步)
数据存储:业务数据Mysql 大数据HDFS HBase(列式存储,查询快)
数据计算:Flink
数据查询:ClickHouse 列存 单表查询效率高
数据可视化 Sugar