![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Java架构师联盟
这个作者很懒,什么都没留下…
展开
-
阿里大数据专家图解sparkRDD(附代码实操)
在开始学习Spark工作原理之前, 先来介绍一下Spark中两个最为重要的概念-- 弹性分布式数据集(Resilient Distributed Datasets, RDD) 和算子(Operation). RDD背景 Spark的核心是建立在RDD之上, 使Spark中的各个组件可以无缝进行集成, 从而在一个应用程序中完成大数据计算. 这也是为什么说在SparkCore中一切得计算都是基于RDD来完成的. RDD的设计理念源自AMP实验室发表的论文–Resilient Distributed.原创 2020-05-16 23:05:26 · 482 阅读 · 0 评论 -
大数据处理编程神器--Scala,确定不学习一下吗?
Scala字符串 Scala中字符串也是分为两种: 可变长度的StringBuilder和不可变长度的String, 其操作用法与Java几乎一致. 接下来, 通过代码来查看常用方法 //定义字符串 val str1 = "Hello Scala" var str2 = "Hello Scala" var str2_1 = "hello scala" //字符串比较 println(str1 == str2) println(str1.equals(str2)) println(str1.equ原创 2020-05-14 22:38:52 · 239 阅读 · 0 评论 -
python的竞争者scala,谁更适合大数据
在浏览spark的官网时,机缘巧合的我看到这这样一张图 这其中出现了三个熟悉的身影,Java、Scala、python,作为最近热门讨论的语言,那python和scala在大数据的竞争中到底谁更胜一筹呢?虽然python因为其“胶水”特性,被更多的使用和讨论,但是scala也真的不要小瞧他,他在spark的支撑下,真的也是一门强大的语言,来看一下scala的神秘色彩吧 Scal...原创 2020-03-24 16:21:45 · 636 阅读 · 0 评论 -
整理常用Scala函数代码供大家参考(附wordcount源码)
随着大数据的发展,spark逐渐成为主流技术之一,而且支撑的scala语言也成为做大数据热门的编程语言之一,在家无聊,就将scala中一些常用的的scala的高端函数以及set、map等代码进行整理,在最后有一个完整的wordcount大数据入门源码 偏应用函数 偏应用函数是一种表达式,不需要提供函数需要的所有参数,只需要提供部分,或不提供所需参数。 /** * 偏应用...原创 2020-03-24 16:01:18 · 391 阅读 · 0 评论 -
任务调度,你懂吗?来听阿里大老一张图解释spark任务调度
关于任务调度,主要通过上面的这张图进行一个相应的讲解,在这张图里面主要分为两个部分,一是关于任务调度的流程,二是关于任务调度的重试机制,这也是我们spark优化的其中一个方面 首先是RDD Object, 这也就相当于我们的应用程序,当我们在开发一个application的时候我们会将一个个的RDD之间有了一个依赖关系,形成一个有向无环图,然后我们将这个有向无环图提交给DAGS...原创 2020-03-23 21:05:57 · 368 阅读 · 0 评论 -
spark-submit之后发生了什么?跟随清华大佬一探究竟
文章目录Spark术语解释:MasterWorkerApplicationDriverExecutorJob关系之间的执行关系:任务层面资源层面Client1、尽量减少集群中各台服务器之间的性能差异,防止出现木桶效应2、便于维护集群,以防止出现危害集群的行为Cluster 就像在一家公司里面总有明确的分工,每一哥部分负责自己的那一部分的任务,大家一起来维持公司的正常运转,同样的,spark就像是一...原创 2020-03-17 20:43:06 · 245 阅读 · 0 评论 -
分布式弹性数据集助力spark,提升运行效率
在spark的简介中我们已经说过了,为了让spark的处理速度加快,其中有一个解决办法就是引入了一个分布式的弹性数据集–RDD 那什么是RDD:RDD(Resilient Distributed Dataset)弹性数据集,是spark中的最基本的数据抽象,虽然说RDD是一个数据集,但是,它不存储数据,他表示的是一个不可变的,可分区的元素并行计算的集合,允许用户在执行多个查询时将工作缓存到内存中,...原创 2020-03-16 21:52:42 · 150 阅读 · 0 评论