SparkCore
RayBreslin
大数据开发、设计企业应用
展开
-
(转)Spark共享变量(广播变量、累加器)
【转载原文:https://blog.csdn.net/Android_xue/article/details/79780463】版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/Android_xue/article/details/79780463Spark两种共享变量...转载 2019-11-29 13:30:28 · 190 阅读 · 0 评论 -
SparkCore(17):RDD的容错机制
一、概念RDD 任务运行过程中,如果出错,spark会有相应的机制去进行错误修复,从而保证任务持续执行,即RDD容错机制。二、具体容错分类1.driver宕机(1)如果job运行在client:程序直接挂了(2)如果job运行在cluster: -》spark on standalone/mesos:通过spark-submit的参数--supervise可以指定当d...原创 2019-11-28 11:14:34 · 1325 阅读 · 0 评论 -
SparkCore(10):uv/pv实例
1.统计样例2013-05-19 13:00:00 http://www.taobao.com/17/?tracker_u=1624169&type=1 B58W48U4WKZCJ5D1T3Z9ZY88RU7QA7B1 http://hao.360.cn/ 1.196.34.243 NULL -12013-05-19 13:00:00 http://www.taobao.com/i...原创 2018-10-25 00:02:26 · 404 阅读 · 0 评论 -
SparkCore(16):Spark内存管理机制1.6之前和1.6+
一、Spark1.6之前(固定的值)1.架构图2.具体分配Spark应用中代码使用内存:你编写的程序中使用到的内存=>20%Spark数据缓存的时候用到的内存:60% => spark.storage.memoryFractionSpark shuffle过程中使用到的内存:20% => spark.shuffle.memoryFraction3.官网...原创 2018-10-26 21:43:04 · 422 阅读 · 0 评论 -
SparkCore(9):Spark应用资源构成和启动配置信息三个位置
一、spark应用资源构成和执行过程1.资源构成一个spark应用是由:Driver + Executors组成,其中:(1)Driver: SparkContext上下文的构建、RDD的构建、RDD的调度(2)Executor:具体task执行的位置 备注:一个application 可以包含多个jobs,一个job包含多个stage,一个stage包含多个task2....原创 2018-10-24 07:53:21 · 356 阅读 · 0 评论 -
SparkCore(15):Shuffle原理和优化
一、总括Shuffle是进行重新分区的过程,即上游RDD与下游RDD是宽依赖的关系。以下操作可能会引起Shuffle(1)重新调整分区操作:repartiton,coalesce(2)*ByKey:groupByKey,reduceByKey(3)关联操作:join二、shuffle Manager改进1-》Spark在1.1以前的版本一直是采用Hash Shuffle的实现的...原创 2018-10-26 07:48:51 · 230 阅读 · 0 评论 -
SparkCore(8):Spark Standalone和OnYarn两种模式提交命令实例
一、实现功能二、前提三、standalone模式1.前提2.命令2.1 client模式2.2 cluster:提交端口是REST server四、yarn模式1.前提2.命令2.1 client模式2.2 cluster模式一、实现功能通过将spark的Standalone和OnYarn两种模式集中对比,更容易区分两者区别。二、前提1....原创 2018-10-24 00:19:38 · 517 阅读 · 0 评论 -
SparkCore(7):SparkOnYarn提交(生产环境)
一、实现功能将spark的wordcount任务提交到Yarn上,然后计算结果输出到hdfs上。二、实现步骤1.Wordcount_product代码package _0722rdd/** * Created by Administrator on 2018/7/16. */import org.apache.spark.rdd.RDDimport org.apa...原创 2018-10-24 00:09:51 · 521 阅读 · 0 评论 -
SparkCore(6):Spark应用的监控Job History(yarn or standalone)
1.实现功能对于spark正在运行的应用,可以通过webUI:4040来查看,但是对于已经执行完的job,则需要通过spark的job history来查看,查看方式是webUI:180802.配置Spark Job History(1)创建HDFS上存储spark应用执行日志的文件夹bin/hdfs dfs -mkdir -p /spark/history(2)修改配置文件...原创 2018-10-23 20:00:37 · 515 阅读 · 0 评论 -
SparkCore(14):RDD宽依赖和窄依赖
一、两者区别的架构1.宽依赖和窄依赖操作算子的区别2.宽依赖和窄依赖类型区别二、概念1.窄依赖(1)概念 子RDD的每个分区的数据来自常数个父RDD分区;父RDD的每个分区的数据到子RDD的时候在一个分区中进行处理。即,父依赖的每个分区都分到子依赖的一个分区中(2)对应算子 (a)输入输出一对一的算子,且结果 RDD 的分区结构不变,主要是...原创 2018-10-25 22:02:12 · 331 阅读 · 0 评论 -
SparkCore(13):TopN算法
1.实现功能 针对数据,进行排序选取TopN的数据。2.数据aa 78bb 98aa 80cc 98aa 69cc 87bb 97cc 86aa 97bb 78bb 34cc 85bb 92cc 72bb 32bb 233.代码package _0722rddimport SparkUtil.SparkUtilimport org....原创 2018-10-25 20:17:04 · 666 阅读 · 0 评论 -
SparkCore(12):RDD三种API
一、简介RDD的操作分为三类:transformation、action以及persistent,分别有不同功能,以下做一个详细介绍。二、RDD三种API1.tranformation(1)执行时间:由一个RDD产生一个新的RDD,不会触发job的执行(2)作用:这个操作是在driver过程中执行的,当有action的操作时,就会把对应的信息发送到excutor上面(3)常...原创 2018-10-25 18:28:12 · 269 阅读 · 0 评论 -
SparkCore(11):RDD概念和创建RDD两种方法,以及RDD的Partitions以及并行度理解
一、RDD概念1.概念Resilient Distributed Datasets弹性分布式数据集,默认情况下:每一个block对应一个分区,一个分区会开启一个task来处理。(a)Resilient:可以存在给定不同数目的分区、数据缓存的时候可以缓存一部分数据也可以缓存全部数据(b)Distributed:分区可以分布到不同的executor执行(也就是不同的worker/NM上执...原创 2018-10-25 18:13:01 · 307 阅读 · 0 评论 -
SparkCore(5):Spark on Standalone配置和测试
1.实现功能 Spark应用运行在Standalone资源管理框架系统上,Standalone是spark自带的一种资源管理框架,类似yarn,分布式的。2.Standalone的框架 Worker: 执行节点服务,管理当前节点的资源及启动executor Master: 集群资源管理及申请3.配置信息(1)要求:spark的local本地模式可以...原创 2018-10-23 07:46:27 · 284 阅读 · 0 评论 -
SparkCore(4):Spark-shell的topN的3种实现
一、实现功能获取Top10 word单词二、实现方法1.方法1.sortByval textFile = sc.textFile("file:///opt/modules/spark-2.1.0-bin-2.7.3/README.md")val wordRDD=textFile.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _...原创 2018-10-22 21:59:31 · 404 阅读 · 0 评论 -
SparkCore(3):Spark安装和配置,以及简单api
1. 安装好jdk(JAVA_HOME\PATH)、scala(SCALA_HOME\PATH)、HDFS等依赖服务 2. 解压编译好的压缩包tar -zxvf spark-1.6.1-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6/3.创建一个软连接(可以不做) cd /opt/cdh-5.3.6 ln -s spark-1.6.1-b...原创 2018-10-22 21:29:17 · 357 阅读 · 0 评论 -
SparkCore(2):Spark源码导入IDEA(blog很经典)
参考blog:https://www.cnblogs.com/zlslch/p/5881893.html原创 2018-10-22 20:28:13 · 520 阅读 · 0 评论 -
SparkCore(1):spark编译
一、硬件环境 虚拟机内存提升到4GB以上 二、软件环境1.java卸载系统自带的java,spark 2.0以后的版本都用JAVA1.8+的! (1)查询:rpm -qa | grep jdk结果:java-1.7.0-openjdk-1.7.0.181-2.6.14.8.el6_9.x86_64java-1.7.0-openj...原创 2018-10-22 20:24:59 · 338 阅读 · 0 评论