![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
掌心里的海-Canace
以前车马很慢,书信很远,一生只够爱一个人。
展开
-
Spark算子—aggregate、aggregateByKey
Spark算子—aggregate、aggregateByKey1、aggregate函数 将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。val array = Array(("tong",25),("wei",27),("ping",23)) v...原创 2020-03-11 09:53:13 · 348 阅读 · 0 评论 -
【spark笔记】spark四大特性
刚转大数据三个月,最近学习一套spark视频,希望搞个博客记录一下,以便翻阅。Spark四大特性:1、Speed 快速2、Easy of use易用性3、Generality 通用性 sparksql、sparkstreaming、机器学习、图计算4、Runs everywhere ...原创 2018-05-27 22:22:59 · 465 阅读 · 0 评论 -
【spark笔记】RDD解释和Spark架构
1、什么是RDD?1、RDD是Spark提供的核心抽象,弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据,它是被分区的,分为多个分区,每个分区分布在集群的不同节点上,从而让RDD的数据可以并行操作。3、RDD通常通过hadoop上的文件,即HDFS文件或者hive表,来进行创建,有时也可以通过应用程序中的集合来创建。...原创 2018-05-28 22:47:45 · 288 阅读 · 0 评论 -
【spark笔记】HistoryServer服务配置
配置文件:spark-defaults.confspark.eventLog.enabled truespark.eventLog.dir hdfs://IP:8020/spark-events #提前创建好目录spark.eventLog.compress true #压缩,减少资源消耗配置文件:spark-env....原创 2019-09-17 23:37:16 · 299 阅读 · 0 评论 -
【spark笔记】RDD的持久化
RDD的持久化:Rdd.cache()Rdd.persist(StorageLevel.MEMORY_ONLY) persist方式可选取以下不同方式持久化MEMORY_AND_DISK #如果内存不够再存磁盘DISK_ONLYMEMORY_ONLY_SER #存数据时候实现序列化 可节省内存,但是读取时要反序列化,耗CPU,衡量MEMORY_ONLY_2 ...原创 2019-09-17 23:46:23 · 262 阅读 · 0 评论 -
【spark笔记】sparkOnYarn
###配置spark on yarn只需要配置如下参数即可。使用yarn模式的时候,不需要启动master和worker了只需要启动hdfs和yarn即可Yarn运行任务的过程:原创 2019-09-17 23:54:26 · 242 阅读 · 0 评论 -
【spark笔记】共享变量
共享变量(广播变量、累加变量)Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。广播变量:(一个worker共享)每个节点拷贝一份,更大的用处是优化性能,减少网络传输以及内存消耗。累加变量:可以让多个task共同操作一份变量,主要可以进行累加操作但是task只能对Accumulator进行累加...原创 2019-09-18 00:26:30 · 164 阅读 · 0 评论 -
【spark笔记】Stage划分原理
我们开发一个应用后,把这个应用提交到集群,那么这个应用就交Application,这个应用里面我们开发了好多代码,这些代码凡是遇到一个action操作,就会产生一个job任务,也意味着,一个Application有一个或者一个以上的job任务,然后这些job任务划分为不同的stage去执行,这个stage里面就是运行不同的task任务,task计算的就是分区上面的数据。...原创 2019-09-18 00:33:42 · 284 阅读 · 0 评论