spark
张林强超级ok
现从事java,对大数据非常感兴趣,希望以后和大家共同进步
展开
-
Spark基础入门
最近在研究spark,spark现在可以算是最流行的大数据计算框架啦,mr只能进行离线计算的批处理,presto,implala进行交互式查询,storm只能进行流计算,而spark恰恰集成了这些。我这篇文章只进行基础入门的介绍(系统架构,运行模式)。- spark和mr的比较spark把计算中间数据放到内存(cache,persist),mr的map阶段和ruduce阶段都需要进行溢写落...原创 2018-11-26 16:13:11 · 177 阅读 · 0 评论 -
Spark 性能调优
最近在学习spark,spark相对于mr来说他的dag模型和内存管理确实很大的提高了性能,但是Spark开发出高性能的大数据计算作业,并不是那么简单的。想要spark最大的发挥他的优势,需要在很多方面进行调优。基础篇1. 开发调优开发调优主要就是对于算法的理解以及使用,也是最基础的部分。1.尽可能复用同一个RDD,这样可以尽可能地减少RDD的数量,从而尽可能减少算子执行的次数2.对多次...转载 2018-12-27 16:03:49 · 341 阅读 · 0 评论 -
Spark Streaming运行架构以及代码详解
1. 运行架构spark Streaming相对其他流处理系统最大的优势在于流处理引擎和数据处理在同一软件栈,其中Spark Streaming功能主要包括流处理引擎的流数据接收与存储以及批处理作业的生成与管理,而Spark Core负责处理Spark Streaming发送过来的作业。Spark Streaming分为Driver端和Client端,运行在Driver端为StreamingCo...原创 2018-12-25 10:28:08 · 616 阅读 · 0 评论