介绍
提供一个结合实时数据和Hadoop预先计算的数据环境的混合平台,以提供一个实时数据视图。
分层架构
- 批处理层
- 实时处理层
- 服务层
批处理层
特点:
- 数据不可变
- 可进行任何计算
- 水平扩展
- 高延迟
常见的使用工具
- Flume用于日志收集
- Sqoop用于数据同步
- HDFS、HBase用于分布式存储
- HDFS 不适合存储大量小文件
- Hadoop与Spark用于分布式计算
- 使用Thrift、Protocol buffer、Avro进行序列化
- 使用Cassandra、Impala、Redis、MySQL用作视图存储数据库
实时计算层
特点:
- 流式计算
- 持续计算
- 存储和分析某个窗口期内的数据
- 最终正确性
服务层
特点:
- 支持随机读
- 需要在非常短的时间内返回结果
- 读取batch layer、speed layer结果,并对其归并