大数据平台技术栈——技术全貌(一)


在这里插入图片描述

一、采集层&传输层

1. Sqoop

在hadoop和关系型数据库间转换数据

2. Flume

  • 分布式的高可用的数据收集、聚集和移动的工具
  • 从其他系统搜集数据(web服务器产生的日志,通过Flume将日志写入到HDFS)

3. Canal

  • 阿里的开源项目
  • 从外部系统(RDBMS/日志服务器)抽取数据到数据仓库,即canal用于数据抽取
  • 与其他基于SQL查询的抽取软件(Apache Sqoop)最大的不同,可支持实时的数据抽取
  • (mysql binlog是一种实时数据流,用于主从节点间的数据复制,利用binlog canal可进行实时数据抽取)

4. Logstash

  • 开源的服务器端数据处理管道,
  • 能够同时从多个来源采集数据,转换数据,然后将数据发送到目的存储库

5. Kafka

  • 消息队列,一个分布式流平台

6. RocketMQ

  • 阿里开源的消息队列

二、存储层

1. HBase

  • HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。

2. Alluxio/Redis/Ignite

  • Alluxio:以内存为中心分布式存储系统,两大功能:
  • 提供一个文件系统层的抽象,统一文件系统接口,桥接储存系统和计算框架
  • 通过内存实现对远程数据的加速访问

3. Redis

  • 开源的内存键值数据库
  • 支持丰富的数据结构

4. Ignit

  • 以内存为中心的分布式数据库
  • 缓存和处理平台
  • 用于事务、分析和流式工作负载
    添加链接描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值