spark
掌心里的海-Canace
以前车马很慢,书信很远,一生只够爱一个人。
展开
-
Spark算子—aggregate、aggregateByKey
Spark算子—aggregate、aggregateByKey 1、aggregate函数 将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。 val array = Array(("tong",25),("wei",27),("ping",23)) v...原创 2020-03-11 09:53:13 · 366 阅读 · 0 评论 -
【spark笔记】spark四大特性
刚转大数据三个月,最近学习一套spark视频,希望搞个博客记录一下,以便翻阅。 Spark四大特性: 1、Speed 快速 2、Easy of use易用性 3、Generality 通用性 sparksql、sparkstreaming、机器学习、图计算 4、Runs everywhere ...原创 2018-05-27 22:22:59 · 486 阅读 · 0 评论 -
【spark笔记】RDD解释和Spark架构
1、什么是RDD? 1、RDD是Spark提供的核心抽象,弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据,它是被分区的,分为多个分区,每个分区分布在集群的不同节点上,从而让RDD的数据可以并行操作。 3、RDD通常通过hadoop上的文件,即HDFS文件或者hive表,来进行创建,有时也可以通过应用程序中的集合来创建。 ...原创 2018-05-28 22:47:45 · 305 阅读 · 0 评论 -
【spark笔记】HistoryServer服务配置
配置文件:spark-defaults.conf spark.eventLog.enabled true spark.eventLog.dir hdfs://IP:8020/spark-events #提前创建好目录 spark.eventLog.compress true #压缩,减少资源消耗 配置文件:spark-env....原创 2019-09-17 23:37:16 · 321 阅读 · 0 评论 -
【spark笔记】RDD的持久化
RDD的持久化: Rdd.cache() Rdd.persist(StorageLevel.MEMORY_ONLY) persist方式可选取以下不同方式持久化 MEMORY_AND_DISK #如果内存不够再存磁盘 DISK_ONLY MEMORY_ONLY_SER #存数据时候实现序列化 可节省内存,但是读取时要反序列化,耗CPU,衡量 MEMORY_ONLY_2 ...原创 2019-09-17 23:46:23 · 282 阅读 · 0 评论 -
【spark笔记】sparkOnYarn
###配置spark on yarn只需要配置如下参数即可。 使用yarn模式的时候,不需要启动master和worker了 只需要启动hdfs和yarn即可 Yarn运行任务的过程:原创 2019-09-17 23:54:26 · 268 阅读 · 0 评论 -
【spark笔记】共享变量
共享变量(广播变量、累加变量) Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。 广播变量:(一个worker共享) 每个节点拷贝一份,更大的用处是优化性能,减少网络传输以及内存消耗。 累加变量: 可以让多个task共同操作一份变量,主要可以进行累加操作 但是task只能对Accumulator进行累加...原创 2019-09-18 00:26:30 · 179 阅读 · 0 评论 -
【spark笔记】Stage划分原理
我们开发一个应用后,把这个应用提交到集群,那么这个应用就交Application,这个应用里面我们开发了好多代码,这些代码凡是遇到一个action操作,就会产生一个job任务,也意味着,一个Application有一个或者一个以上的job任务,然后这些job任务划分为不同的stage去执行,这个stage里面就是运行不同的task任务,task计算的就是分区上面的数据。 ...原创 2019-09-18 00:33:42 · 307 阅读 · 0 评论