数据采集:
实时采集(ETL):
Debezuim是构建在 Apach Kafka之上,并提供Kafka连接器来监视特定的数据库管理(采集多种数据库)
canal 是阿里开发,用于实时采集Mysql 当中变化的数据
maxwell,flinkX,flinkCDC,kettle(图形化界面操作)
离线采集:
Sqoop是Hadoop生态体系和关系型数据库体系之间传送数据的一种工具
致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP,MongDB等各种异构数据源之间稳定高效的数据同步功能
数据计算:
Storm
一代
Spark
二代,批处理
Flink
三代,流处理,目前热门
Hadoop的MapReduce(退居二线)
任务调度:
简单任务调度:
Linux的 Crontab
复杂任务调度:
Azkaban ,Oozie , AirFlow, DophinScheduler ,K8S等
数据仓库(DW):
HIVE(提供sql,底层是MapReduce,HDFS)速度慢 -> Impala(新型查询系统)查询速度快
HBASE -> Impala
HDFS
消息中间件
其他感兴趣的:
Redis, Nginx,