Hadoop 5大分析工具-深入数据分析
本章目标
- Hadoop的5大分析工具
Hadoop的5大分析工具
Hadoop是开源的分布式存储和数据处理框架。它出于大数据生态圈的中心。它被用于包括预测分析,数据挖掘以及机器学习在内的高级分析。Hadoop技术用于管理数据处理过程,为大数据应用程序存储数据。它可以处理各种结构化和非结构化的数据。下面我们来讨论Hadoop分析工具。
1 Spark
Apache Spark为开发者和数据科学家提供了基于内存的数据处理。它的易于开发,灵活,高速使其称为最流行的Apache项目之一。它是Hadoop标准执行引擎MapReduce的接班人。Apache Spark在Hadoop平台之上进行实时,批量和高级分析。在数据分析方面,Spark逐渐称为默认的数据执行引擎。
Spark的特点:
- 缓存数据集执行交互式数据分析的能力。能够提取工作集,缓存并重复查询。
- 提供Scala或者Python命令行交互接口实现低延迟数据分析
- 通过Spark Streaming提供高级流处理库
- 为机器学习和图处理提供高级库。由于其基于分布式内存架构,Spark比基于磁盘的apache mahout快10倍。
2 Apache Impala
Apache Impala提供了大规模并