大数据平台技术栈——技术全貌(一)
一、采集层&传输层
1. Sqoop
在hadoop和关系型数据库间转换数据
2. Flume
- 分布式的高可用的数据收集、聚集和移动的工具
- 从其他系统搜集数据(web服务器产生的日志,通过Flume将日志写入到HDFS)
3. Canal
- 阿里的开源项目
- 从外部系统(RDBMS/日志服务器)抽取数据到数据仓库,即canal用于数据抽取
- 与其他基于SQL查询的抽取软件(Apache Sqoop)最大的不同,可支持实时的数据抽取
- (mysql binlog是一种实时数据流,用于主从节点间的数据复制,利用binlog canal可进行实时数据抽取)
4. Logstash
- 开源的服务器端数据处理管道,
- 能够同时从多个来源采集数据,转换数据,然后将数据发送到目的存储库
5. Kafka
- 消息队列,一个分布式流平台
6. RocketMQ
- 阿里开源的消息队列
二、存储层
1. HBase
- HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。
2. Alluxio/Redis/Ignite
- Alluxio:以内存为中心分布式存储系统,两大功能:
- 提供一个文件系统层的抽象,统一文件系统接口,桥接储存系统和计算框架
- 通过内存实现对远程数据的加速访问
3. Redis
- 开源的内存键值数据库
- 支持丰富的数据结构
4. Ignit
- 以内存为中心的分布式数据库
- 缓存和处理平台
- 用于事务、分析和流式工作负载
添加链接描述