概念
Spark是一个大规模数据处理的统一分析引擎
特点
迅速(可以理解为二代hadoop)
通用(业务场景上)
易用
支持多种资源管理器
Spark与Hadoop的区别与联系
解决问题的方式不一样
Hadoop是分布式数据设施,由普通计算机组成
Spark则是一个专门的工具,但它并不会进行分布式数据的存储
两者可合可分等
Hadoop可用自身的MapReduce来代替Spark
Spark也可不依赖Hadoop,而选择其他基于云的数据系统平台
Spark相对于HadoopMapRedue的优势
中间结果输出
数据格式和内存布局
误区
Spark是基于内存的技术
Spark要比Hadoop快 10x-100x
Spark的存在将代替Hadoop
…...