实时数仓、基于Flink1.11的SQL构建实时数仓
目录
环境说明
5台虚拟机 CentOS Linux release 7.3.1611 规划如下,注:集群所有组件都在root下安装和启动。
192.168.137.121 m1
192.168.137.122 m2
192.168.137.123 s1
192.168.137.124 s2
192.168.137.125 s3
角色 | zookeeper | hdfs | kafka | flink | hive | |
m1 | ResourceManager RunJar | √ | √ | √ | ||
m2 | DFSZKFailoverController RunJar | √ | √ | √ | ||
s1 | Kafka QuorumPeerMain DataNode NodeManager JournalNode StandaloneSessionClusterEntrypoint TaskManagerRunner | √ | √ | √ | √ | |
s2 | JournalNode DataNode TaskManagerRunner StandaloneSessionClusterEntrypoint QuorumPeerMain NodeManager | √ | √ | √ | ||
s3 | TaskManagerRunner DataNode JournalNode QuorumPeerMain NodeManager | √ | √ | √ |
搭建hadoop环境
操作步骤见我的博客:实时数仓、基于Flink1.11的SQL构建实时数仓 之搭建hadoop HA集群
搭建kafka集群
详见我的博客:实时数仓、基于Flink1.11的SQL构建实时数仓 之kafka集群搭建
搭建flink集群
详见我的博客:实时数仓、基于Flink1.11的SQL构建实时数仓 之搭建flink集群
搭建hive集群
详见我的博客:实时数仓、基于Flink1.11的SQL构建实时数仓 之hive集群
实时数仓简述
详见我转载的博客:实时数仓
本次实时数仓数据架构
本次实时数仓技术架构
文章还未写完,最近琐事有点多,稍等慢慢补上,将会有实时数仓的全部操作,设计实时数据仓库场景两个,1.简单实时数据加工 2.实时交易反欺诈。
先提供一些截图:
flink中实时表
flink中实时作业
kafka中topic