Spark特点:
1、内存计算
2、提供了支持DAG图的分布式并行计算框架,减少多次计算之间结果IO开销
3、提供Cache机制来支持多次迭代计算或者数据共享,减少IO开销
4、RDD之间维护了血统关系,一旦RDD fail掉了,能通过父RDD自动重建,保证了容错性
5、移动计算而非移动数据,RDD Partition可以就近读取分布式文件系统中的数据块到各个节点内存中进行计算
6、使用多线程池模型来减少task启动开销
7、shuffle过程中避免不必要的sort操作
8、采用容错的、高可伸缩性的akka作为通讯框架
Spark是什么?
最新推荐文章于 2023-04-27 21:20:18 发布