spark
Sky-Rush
这个作者很懒,什么都没留下…
展开
-
spark-1-基础
文章目录MR有什么问题?什么是spark?Spark解决了什么问题?spark的安装验证Spark MR有什么问题? 调度慢,启动map、 reduce太耗时 计算慢,每一步都要保存中间结果落磁盘 API抽象简单,只有map和reduce两个原语 缺乏作业流描述,一项任务需要多轮mr 什么是spark? – 也是一个分布式的并行计算框架 – spark是下一代的map-reduce,扩展了mr的数...原创 2019-04-18 22:51:02 · 264 阅读 · 0 评论 -
spark-2-核心
• Spark基于弹性分布式数据集(RDD)模型,具有良好的通用性、容错性与并行处理数据的能力 • RDD(Resilient Distributed Dataset ):弹性分布式数据集(相当于集合),它的本质是数据集的描述(只读的、可分区的分布式数据集),而不是数据集本身 • RDD的关键特征: – RDD使用户能够显式将计算结果保存在内存中,控制数据的划分,并使用更丰富的操作集合来处理 – ...原创 2019-04-18 23:03:32 · 125 阅读 · 0 评论