大数据软件,待补充

数据采集:

        实时采集(ETL):

                Debezuim

                        Debezuim是构建在 Apach Kafka之上,并提供Kafka连接器来监视特定的数据库管理(采集多种数据库)

                Canal

                        canal 是阿里开发,用于实时采集Mysql 当中变化的数据

                maxwell,flinkX,flinkCDC,kettle(图形化界面操作)

        离线采集:

                Sqoop

                        Sqoop是Hadoop生态体系和关系型数据库体系之间传送数据的一种工具

                DataX

                        致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP,MongDB等各种异构数据源之间稳定高效的数据同步功能

数据计算:

        Storm

                一代

        Spark

                二代,批处理

        Flink

                三代,流处理,目前热门

         Hadoop的MapReduce(退居二线)     

任务调度:

        简单任务调度: 

                Linux的 Crontab

        复杂任务调度:

                Azkaban ,Oozie , AirFlow, DophinScheduler ,K8S等

数据仓库(DW):

        HIVE(提供sql,底层是MapReduce,HDFS)速度慢 ->  Impala(新型查询系统)查询速度快

        HBASE -> Impala

        HDFS

消息中间件

KafkaZookeeper

其他感兴趣的:

Redis, Nginx, 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值