Spark概述
Spark特点
- 内存计算
- 中间处理数据也放在内存中,减少磁盘I/O
- 支持复杂查询:包括filter、SQL查询、流式查询等
- 支持实时流处理(Hadoop只能离线处理)
- 迭代计算
Spark应用框架
Spark Streaming
Tachyon
过去,Spark的计算功能和内存管理都是在JVM中,导致JVM负载较高,且JVM崩溃后数据会丢失。
Tachyon的目的是分离Spark的计算功能和内存管理功能,使内存管理脱离JVM,专门设计Tachyon在JVM外管理内存数据。这解决了Spark在数据共享、缓存数据丢失情况下的效率较低的问题,还减少了JVM因数据量过多而导致的大量GC操作,提高了Spark效率。