数据的生命周期:
理论储备:
数据仓库:基本概念,数仓体系,数据仓库架构,数据采集,数据ETL, 数据存储,数仓建模,数仓分层,数据计算(分析,挖掘),数据查询,数据治理,调度
技术栈:
日志采集 :Logstash , flume,logagent
业务数据抽取:Sqoop,Datax,Canal
离线数据处理:hadoop,Spark, Sparksql ,hive,hivesql,mapreduce,sql
实时数据处理:Sparkstreaming ,flink,storm
数据查询:Presto,Impala,Kylin
调度系统:Airflow ,azkaban ,oozie (工作流引擎)
资源管理:yarn
消息中间件:Kafka
编程语言:Java,python ,scala,Shell
数据存储:Hdfs ,hbase,elasticsearch ,Redis,mysql, Oracle, NoSql, mongodb
OLAP:Druid,Kylin
报表展示:Kibana,PowerBI,tableau
实时数仓:Kafka+flink+clickhouse
系统:linux
其他相关:
clickhouse,greenplum,doris,druid,kylin,superset等olap mpp技术,等OLAP和数据可视化
dubbo,Spring,Netty,GRPC等主流框架
Kudu
TiDB
Docker容器化
Kubernetes组件
Impala
K8s架构
presto
Hudi
Iceberg
zookeeper