本篇详细阐述了实时大数据分析的实现过程,主要包括大数据技术前景及分析平台,Storm 的熟悉,
用Storm处理数据,Trident 概述和Storm性能优化,Kinesis 的熟悉,Spark 的熟悉,使用RDD编程,
Spark的SQL查询引擎,用Spark Streaming分析流数据以及Lambda架构等内容。此外,本篇还提供了
相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。
本篇内容
第1章“大数据技术前景及分析平台”奠定了全书的知识背景,主要包括大数据前景的综述、大数据平台,上采用的各种数据处理方法、进行数据分析所用的各种平台。本章也介绍了实时或准实时批量分布式处理海量数据的范式。此外,还涉及处理高速/高频数据读写任务的分布式数据库。
第2章“熟悉Storm"介绍了实时/准实时数据处理框架Apache Storm的概念、架构及编程方法。这里涉及多种Storm的基本概念,诸如数据源( spouts)、数据流处理组件(bolts)、并行度(parallelism) 等。本章还以丰富的应用场景