数据类型:结构化、非结构化、音视频等
数据采集:离线采集:Sqoop、DataX 、Kettle、实时采集:Flume、Maxwell、Canal、Nifi
DataWorks(阿里)、Dataphin
数据存储:分布式文件系统(HDFS)、分布式数据库(Hbase)、分布式数据仓库(Hive)数据湖技术(Hudi)、数据湖(Delta lack)、数据湖(Iceberg)
中间件:zookeeper(分布式协调服务)、分布式缓存(redis)、分布式消息系统(kafka、Pulstar)
数据处理:分布式计算框架(MapReduce)、分布式计算框架(Spark)、分布式计算框架(Flink)
OLAP:Kylin、Presto、Druid、Impala、ClickHouse、Phoenix、Kudu、Doris
集群调度:分布式资源调度框架(Yarn)、任务流调度(oozie)、任务流调度(Azkaban)、Airflow、集群管理-cloudera、
可视化:可视化(TCV、Superset、Hue)、DataV(阿里)
报表:Quick BI(阿里)
数据挖掘:Python、各种算法(决策树、逻辑回归等)