hadoop与spark的区别
- hadoop是一个侧重于存储功能的分布式文件系统(HDFS)–是将数据存储到磁盘之中,当然同时也拥有数据处理功能–MapReduce(但是是只能分步处理数据)
- spark是一个侧重于数据计算(处理)–可以进行批处理可以结合hadoop这类文件存储系统,但不是一定只能和hadoop,因为他们两者结合性能最佳.
- hadoop中的MapReduce的数据处理速度由于是分步处理,每读取数据一次就只能处理一次,而不能像spark一样进行批量处理数据.所以一般使用spark.
- 在数据恢复方面:由于hadoop的HDFS要求数据存放在磁盘上,因此恢复较为顺畅,但是spark的数据对象(不是数据)一般可以存放在磁盘或者内存当中,但是安全性没有hadoop高,都可以进行数据恢复.