一、Spark的介绍
发展前景:
1、目前许多领域的应用数据爆炸式增长,与前所未有的数据收集规模;例如:电子商务、社交网络、计算机生物、自媒体、公安交通、运营商等等。
2、大规模数据处理和分析系统越来越流行和重要。具备良好特性如通用性、容错性、高性能的大数据处理引擎是当前最受欢迎的。
3、较成熟的大数据计算框架MapReduce、Storm、Flink等都已近存在,与之相比Spark是更加通用的、快速的、性能较优秀的大数据处理系统。
官网介绍:
http://spark.apache.org
1、Spark 是一种用于处理大量级别的数据的统一的分析引擎
2、Spark使用了DGA调度程序、查询优化程序和物理执行引擎,为批处理和流处理数据实现了高性能;官方图中 spark的计算速度是mr的100倍。
3、Spark 优于 mapreduce 的计算速度,官方对比:
4、Spark提供了80多个高级运算符,并且支持 java、scala、Python,R,SQl 等的API ,能简单快速的使用spark构建并发程序。