![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 73
夏至1208
这个作者很懒,什么都没留下…
展开
-
Spark之广播变量Broadcast Variables与计数器Accumulators
一、广播变量Broadcast Variables 根据官方文档,广播变量Broadcast Variables可以使开发者在每个节点–即Executor上缓存一个只读的变量,它相对于在每个task上复制一份这个变量具有更好的优势。因为它能减少网络和内存的开销。例如,有一个Map数据,大小为10M。这份数据在spark执行过程中需要被用到。下面是伪代码val mapVar = new Has...原创 2018-12-25 14:26:32 · 344 阅读 · 0 评论 -
spark之推测执行
1、什么是推测执行? 在spark作业运行中,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。而推测执行就是当出现同一个stage里面有task长时间完成不了任务,spark就会在不同的executor上再启动一个task来跑这个任务,...原创 2019-01-04 16:19:20 · 1688 阅读 · 0 评论 -
Spark之持久化与存储级别
一、持久化cache()与persist() 根据spark官方文档,Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓存...原创 2018-12-25 11:14:14 · 2262 阅读 · 0 评论 -
Spark之yarn-client与yarn-cluster
摘要: spark有两种方式运行在yarn上,一种是yarn-client客户端模式,一种是yarn-cluster模式。两种模式有一定的不同点。一、Application Master 为了更好的理解这两种模式的区别先了解下Yarn的Application Master概念。在Yarn中,每个application都有一个Application Master进程,它是Appliacti...原创 2018-12-25 10:21:29 · 2178 阅读 · 0 评论 -
Spark SQL之外部数据源
概述 从Spark 1.2版本开始,Spark SQL正式支持外部数据源。它可以通过DataFrame接口对各种数据源进行操作,例如orc,parquet,json,hive,jdbc,avro等。它既可以通过转换成RDD进行操作,也可以被创建为一个临时视图。将外部数据读入后创建为一个临时视图,可以用sql的方式进行查询处理。这个特性可以很方便让我们直接可以用Spark SQL操作各种格式的数...原创 2019-01-04 10:43:49 · 292 阅读 · 0 评论 -
sparksql启动报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH
要启动sparksql并访问到Hive,有两个步骤:1、将$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf下2、配置MySQL驱动包,将MySQL驱动包放在一个自定义目录下,在$SPARK_HOME/conf里面的spark-defaults.conf配置两个参数spark.executor.extraClassPath /home/had...原创 2018-12-27 14:39:16 · 992 阅读 · 0 评论 -
spark之算子--transformation和action
摘要 spark的RDD具有延迟计算的特性,spark有两种操作算子,一种是transformation,一种是action。tranformation是来创建RDD的,它有可能从文件创建,也可能集合中创建,也可能依赖其它RDD创建。当算子为transformation的时候,spark并不执行计算操作,只有当遇到action算子的时候才开始计算。这就是transformation的lazy特...原创 2018-12-20 15:32:12 · 758 阅读 · 0 评论 -
Spark之RDD的概念及其五大特性
根据RDD源码里面的注释,我们来了解一下RDD的五大特性 * Internally, each RDD is characterized by five main properties: * * - A list of partitions * - A function for computing each split * - A list of dependencies on o...原创 2018-12-19 16:36:02 · 4828 阅读 · 0 评论 -
使用IDEA开发第一个spark-maven程序--wordcount
我们来写第一个依赖maven的spark程序wordcount1、配置maven在MAVEN_HOME/conf目录下,编辑setting.xml,添加如下内容。为了方便,我使用的是阿里的镜像。 </mirrors> <mirror> <id>nexus-aliyun</id> <name>nexu...原创 2018-12-19 15:54:33 · 848 阅读 · 0 评论 -
maven编译spark2.3.2源码
软件版本spark 2.3.2scala 2.11.8jdk 1.8+maven 3.3.9hadoop-2.6.0-cdh5.7.0编译步骤:1、先安装配置jdk,scala,maven(略)2、到spark官网下载源码,我这里是用的spark-2.3.2版本。注意我们是下载源码,选择Source Code。然后点击spark-2.3.2.tgz下载。然后将包传到linu...原创 2018-11-07 17:06:04 · 1070 阅读 · 0 评论 -
maven编译spark Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile
今天在用maven编译spark的时候,遇到一个错误,见下图而且没有更多的报错信息,在网上找了很多帖子,方法就是在编译之前,执行sh change-scala-version.sh 2.11根据自己所用的scala版本,如果是10就执行2.10。但是我是执行了这个命令的。还是报这个错误。而且用命令mvn -X查看结果为[hadoop@hadoop001 ~]$ mvn -X Ap...原创 2018-11-07 15:54:32 · 7306 阅读 · 0 评论